プロが教えるわが家の防犯対策術!

データ列(x,y)がn個あって、それを最小自乗法でフィッティングして
y=ax+bにおける傾きaが得られました。

そこで、yの測定誤差が例えば±10%あったとき、
傾きaの誤差δaはどのように求められるのでしょうか?

データ数nが多いほどδaは小さくなるとは思いますが・・・。
よろしくお願いいたしますm(_ _)m

このQ&Aに関連する最新のQ&A

A 回答 (6件)

ごめんなさい、まだ続きがあるのとちょっと間違いがありました。

_o_

>今yの誤差を考えているのでxi→yiでしょうか?
いいえこちらは、xiで間違いありません。

<訂正部分>
まず、σa と σb が入れ替わっていました。
つまり、
σa^2 = N / Δ
σb^2 = Sxx / Δ
です。
が、さらに追加があって、この式ではσi=1 (一定)と仮定して計算しましたので、その分の補正をかけなければならないことを忘れていました。
得られたσa, σbにたいして、

sqrt[ Χ^2 / (N-2)]

をかけて、その値をσa,σbとしてください。

ここでΧ^2は回帰したときの平方和です。(つまり (y - yi)^2 をi=1,,Nで和をとったもの)

今度は間違いがあるといけないので、お示しのデータで検算しました。

傾き---- 0.143341085
切片---- 0.237704298

が68.3%誤差範囲です。
今度はExcelのLinest関数と答えあわせして、OKでしたので間違いないでしょう。
((ΔΧv)^2の数値はLinestでは出てきませんけど。σa, σb は計算してくれます)

では。
    • good
    • 0
この回答へのお礼

訂正ありがとうございます。
仰ったとおり計算したところ、同様の結果が得られました。

最初解答されたときに X^2(回帰したときの平方和)が無くて
yiを使わないから変だなぁ、とは思っていたんですが・・。

ExcelのLINEST関数で、ここまで求められるとは知りませんでしたよ。

統計"力"学なら多少は勉強してるんですが、
統計学はさっぱりです。
(ガウシアン、最小自乗法の初歩しか分からないです。)
最小自乗法は実験データの解析に不可欠だと思いますので、
これを機会に統計学を勉強しはじめたいと思います。

mickjey2さん、解答ありがとうございましたm(_ _)m

お礼日時:2002/07/25 21:31

統計学の教科書には、実験を繰り返すことによって得られる回帰直線の傾き推定値aが正規分布に従うことが知られているなどと記載されています。

これを信じると、t分布を使い回帰係数の推定を行うことができます。
実際に統計学の教科書には問題の例などがあって、それに従って計算すると、この場合では回帰係数aの95%信頼区間が(-0.92<a<-0.32)で示せることがわかるでしょう。統計解析ソフトウエアを使えば答えを出すのに1分もかからないでしょう。

より実際的には他のグループで推計された回帰係数aを集めて標本を作り、その分布から母集団のaの値を推定するのもよいかもしれません。
(ここでの「a」はそれぞれ定義が違うので表現法を変えた方がよいかもしれません)


>そこで担当教官に「aの誤差を評価しなさい」と言われたわけです。

「誤差」を計算するには、aの真の値が必要です。
それを教官から教えてもらいましょう。
そうすると、その真値と今回の実験で得られた回帰直線の傾き推定値aとの差の絶対値が「aの誤差」となるでしょう。


>データ数nが多いほどδaは小さくなるとは思いますが・・・。

実験回数が多いと疲れていい加減になるかもしれないので一概には言えないかも。
    • good
    • 0
この回答へのお礼

わざわざ計算までして下さってありがとうございます。
何とかδaを求めることができました。

統計解析のソフトですかぁ、安いなら是非手に入れたいものです。

>より実際的には他のグループで推計された回帰係数aを集めて標本を作り、
>その分布から母集団のaの値を推定するのもよいかもしれません。

いやぁ、”基礎”実験なものですから、そこまでは気力が・・・^^;

>「誤差」を計算するには、aの真の値が必要です。
>それを教官から教えてもらいましょう。

言葉足らずでした。
私が求めたかったのはaの理論値からの誤差ではなく、
いわば実験値a=-0.63を真値と考えて、測定誤差などにより
実験値がどれくらい曖昧になっているかを知りたかったんです。

>実験回数が多いと疲れていい加減になるかもしれないので一概には言えないかも。

言えてます・・・。この言葉ズシンときました。

sen-senさん、度重なる解答ありがとうございましたm(_ _)m

お礼日時:2002/07/25 21:15

いま得られるデータxi, yi の yi の不確かさ、つまり分散がどの yi でも同一であるとします。


このとき、データ数をNとして、

Sxx = Sum(i =1, N) { xi^2 }
Sx = Sum(i =1, N) { xi }

Δ = N * Sxx - (Sx)^2

とします。
ここで、Sum(i =1, N) は {}内の数値をi=1,2,3....,Nまで加算するΣの記号とします。
また、”^”の記号は x^2 = X * X と累乗をあらわすとします。

パラメータa、bの標準偏差σa, σbは、

σa^2 = Sxx / Δ
σb^2 = N / Δ

で与えられます。
さて、a, bの 68.3%, 95.4%, 99.99%などの信頼区間を求めるには、その信頼区間を表す自由度vの(ΔΧv)^2(カイ2乗と呼ばれます)の数値を用いて、

δa = sqrt[ (ΔΧv)^2 ] * σa
δb = sqrt[ (ΔΧv)^2 ] * σb

つまり誤差を含んだ表記としては、(a ± δa)[95.4%] のようになります。

今直線回帰の場合は自由度が2なので、代表的な信頼区間における(ΔΧ2)^2は、

68.3 % ... 2.30
95.4 % ... 6.17
99.0 % ... 9.21
99.99 % .. 18.4

となります。
ただしa, bの同時信頼域(a,bがともにある信頼度以内にある範囲)を求めたい場合はさらにややこしくなりますのでここでは割愛させていただきます。

これ以上は統計学などの本をお読みください。

この回答への補足

解答ありがとうございます。

>Sxx = Sum(i =1, N) { xi^2 }
>Sx = Sum(i =1, N) { xi }
今yの誤差を考えているのでxi→yiでしょうか?

与えてもらった式で計算してみました。(データは↓の補足から)

Sxx=(-3.7)^2+(-4.3)^2+(-4.6)^2+(-4.8)^2+(-5.0)^2 =101.4

Sx=(-3.7)+(-4.3)+(-4.6)+(-4.8)+(-5.0) =-22.4

Δ=5*Sxx-(Sx)^2=(5*101.4)-(22.4)^2 =5.24

σa=sqrt{Sxx/Δ}=sqrt{101.4/5.24}=4.40

δa=sqrt{2.30}*σa #信頼区間68.3%# =6.7

最小自乗法でa=-0.63(下の補足には"-"忘れてました)
と言いましたが上のδaを使うと

a=-0.63±6.7

ということになってしまいました。
これでは誤差が大きすぎて誤差云々の話にならないですよね。
う~ん・・・、式の解釈の仕方が間違ってるんでしょうか?

補足日時:2002/07/25 15:37
    • good
    • 0

>yの測定誤差が例えば±10%



誤差の定義が真値と測定値の差とすると、真値はどのようにして得られたのでしょうか?また、その差の大きさはいつも真の値の10%と固定されているのでしょうか?

>傾きaの誤差δaはどのように求められるのでしょうか?
傾きaの不確かさδaは、yの測定不確かさの分布によって決まりそうなので、シミュレーションしてその大きさの分布を求めてみるのはいかがでしょうか。

この回答への補足

一般的なことと具体的なことが混ざっておりましたね。
この際具体的にしてみます。

大学の真空基礎実験をしておりまして、ある物理量xとyを測定しました。
5つしか最小自乗法に使うべき、データ(x,y)の組を得られなかったので、フィッティング結果の
傾きaの誤差を考える必要が生じたのです。

具体的に書きますと、
(x,y)=(0.5,-3.7),(1,-4.3),(1.5,-4.6),(2,-4.8),(2.5,-5.0)

>誤差の定義が真値と測定値の差とすると、真値はどのようにして得られたのでしょうか?また、その差の大きさはいつも真の値の10%と固定されているのでしょうか?
yは測定器の目盛りを読んだもので、
yの測定誤差±10%としたのは目盛り読みとり誤差です。
10%以内と言った方が良かったかもです。
他にも測定誤差はありますが、メインでこれが効いているということで・・・。

最小自乗法で傾きa=0.63という結果になり、これを基に、ある物理量Aを求めてみるんですね。
そこで担当教官に「Aの誤差を評価しなさい」と言われたわけです。

具体的になりすぎて申し訳ないのですが、
δaの最大値と最小値を求めて、傾きaがどれくらいの範囲に収まっているか知りたいのです。
方法をもう少しわかりやすく言って下さると、とってもありがたいです。
よろしくお願いしますm(_ _)m

補足日時:2002/07/25 10:23
    • good
    • 1

場所によって異なります。

平均値付近を極しょうちとして.左右で発散するとつ関数(おう関数かも.名称が疑問)になります。
回帰分析では.最小値と最大値の間だけ使用可能であり.がいそうは原則(例外としてひょうてん方.ただし別の方法で線形性を調べてから使用するので.外装はんいが線形になっていることがわかっていますから)として使用してはならないといわれている原因です。
    • good
    • 0
この回答へのお礼

解答ありがとうございますm(_ _)m
sen-senさんの解答補足で具体的にお話しいたします。

お礼日時:2002/07/25 09:48

 手元に一覧表がないので、「回答」にはなりかねます…



データーが多いほど、データは正規分布に近い分布を形成しますので、±10%でどれくらいの信頼度があるか、確認してみるとよいと思います。

 ちなみに、得られた直線を中心とする漸近線で表されると思います…
    • good
    • 0
この回答へのお礼

早速の解答ありがとうございました。
sen-senさんの解答補足で具体的にお話しいたします。

お礼日時:2002/07/25 09:47

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q誤差を考慮した最小二乗法

誤差を考慮した最小二乗法
実験で「誤差を考慮した最小二乗法で計算せよ。尚、誤差を考慮しない場合は減点する。この場合の誤差とは標準偏差の事である。」という課題何ですが誤差を考慮した最小二乗法とはどうゆう事なのでしょうか?

http://www.dotup.org/uploda/www.dotup.org828193.xls.html
のデータにて
http://www.akita-nct.ac.jp/~yamamoto/lecture/2007/5E_comp_app/interpolation/interpolation_html/node4.html
のサイト様を参考にして一次関数の最小二乗法で計算しようと思ったのですが標準偏差はどこに入れればいいのでしょうか?グラフを作った後に誤差棒として標準偏差を入れるという事なのでしょうか?

Aベストアンサー

普通は質問文に上げてあるサイトや、Wikipediaの最初のほうに書いてあるように、
最小二乗法は、残差二乗和を最小にするように係数を決める方法だと書いてあります。
しかしこれは、標準偏差がσすべて同じ場合に限られます。

各測定点でばらつきが異なりそれが既知である場合には、xとyに

y=f(x; a, b, ...)

というモデルを採用した場合には

残差二乗値

E(a,b,...) = Σi ([yi-f(xi; a, b, ...)])^2

ではなく、χ二乗値と呼ばれる

χ^2 = Σi ([yi-f(xi; a, b, ...)]/σi)^2

を最小にします。モデルが一次式ならば y = ax +b なので

χ^2 = Σi ([yi-axi-b]/σi)^2

です。したがって、

E(a,b) = Σi ([yi- axi - b])^2

をスタートにする代わりに

χ^2 = Σi ([yi-axi-b]/σi)^2

から初めて、質問文にあるサイト

http://www.akita-nct.ac.jp/~yamamoto/lecture/2007/5E_comp_app/interpolation/interpolation_html/node4.html

に書いてあることと、全く同じように求めていけばいいです。
課題ということですので、以下、ご自身で行ってください。

普通は質問文に上げてあるサイトや、Wikipediaの最初のほうに書いてあるように、
最小二乗法は、残差二乗和を最小にするように係数を決める方法だと書いてあります。
しかしこれは、標準偏差がσすべて同じ場合に限られます。

各測定点でばらつきが異なりそれが既知である場合には、xとyに

y=f(x; a, b, ...)

というモデルを採用した場合には

残差二乗値

E(a,b,...) = Σi ([yi-f(xi; a, b, ...)])^2

ではなく、χ二乗値と呼ばれる

χ^2 = Σi ([yi-f(xi; a, b, ...)]/σi)^2

を最小にします。モデルが一次式な...続きを読む

Q回帰直線の傾きと切片の誤差

 エクセルで散布図を作成した後、近似直線(y=ax+b)を作りました。R-2値は0.999以上で非常に高い相関がみられたのですが、この直線の傾きと切片はどの程度の誤差を有しているのか知りたいです。傾きaと切片bの誤差の導き方を教えてください (それぞれの誤差をc,dとすると、a±c, b±dのような表現の仕方がしたいと思ってます)。よろしくお願いいたします。

Aベストアンサー

ごめんなさい、まちがいを見つけました。

誤:
r <- lm(V2 ~ V1,as.data.frame(xy))

正:
d <- as.data.frame(xy)
r <- lm(V2 ~ V1,d)

Qエクセルで計算すると2.43E-19などと表示される。Eとは何ですか?

よろしくお願いします。
エクセルの回帰分析をすると有意水準で2.43E-19などと表示されますが
Eとは何でしょうか?

また、回帰分析の数字の意味が良く分からないのですが、
皆さんは独学されましたか?それとも講座などをうけたのでしょうか?

回帰分析でR2(決定係数)しかみていないのですが
どうすれば回帰分析が分かるようになるのでしょうか?
本を読んだのですがいまいち難しくて分かりません。
教えてください。
よろしくお願いします。

Aベストアンサー

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるための指数表記のことですよ。
・よって、『2.43E-19』とは?
 2.43×1/(10の19乗)で、
 2.43×1/10000000000000000000となり、
 2.43×0.0000000000000000001だから、
 0.000000000000000000243という数値を意味します。

補足:
・E+数値は 10、100、1000 という大きい数を表します。
・E-数値は 0.1、0.01、0.001 という小さい数を表します。
・数学では『2.43×10』の次に、小さい数字で上に『19』と表示します。→http://ja.wikipedia.org/wiki/%E6%8C%87%E6%95%B0%E8%A1%A8%E8%A8%98
・最後に『回帰分析』とは何?下の『参考URL』をどうぞ。→『数学』カテゴリで質問してみては?

参考URL:http://ja.wikipedia.org/wiki/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90

★回答
・最初に『回帰分析』をここで説明するのは少し大変なので『E』のみ説明します。
・回答者 No.1 ~ No.3 さんと同じく『指数表記』の『Exponent』ですよ。
・『指数』って分かりますか?
・10→1.0E+1(1.0×10の1乗)→×10倍
・100→1.0E+2(1.0×10の2乗)→×100倍
・1000→1.0E+3(1.0×10の3乗)→×1000倍
・0.1→1.0E-1(1.0×1/10の1乗)→×1/10倍→÷10
・0.01→1.0E-2(1.0×1/10の2乗)→×1/100倍→÷100
・0.001→1.0E-3(1.0×1/10の3乗)→×1/1000倍→÷1000
・になります。ようするに 10 を n 乗すると元の数字になるた...続きを読む

Q測定したデータの誤差を計算する方法

集めたデータのばらつきを求めるときに使う計算法として、標準偏差がありますが、「誤差=平均値±標準偏差」と考えていいのでしょうか?
ほかに標準誤差というのがあるようなのですが、説明を読んでも何を意味している誤差なのか理解できません。
ちなみに、データは以下の通りです。

データ数:60
最高値:39.00
最低値:11.00
平均値:22.56
標準偏差:5.261
標準誤差:0.679(5.261/√60)
標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。
標準誤差を誤差と考えると22.56±0.679で、総データの10.0%が含まれます。

回答よろしくお願いします。

Aベストアンサー

ここで言う標準誤差は,平均値の確度を表す指標です.
(私自身は標準誤差という名称は初めてですが...)
なので母集団の平均の推定値は算出した平均値±α*標準誤差
(αは推定値の信頼度によって変化します.詳しくは
統計の教科書のt-分布のあたりをご覧下さい)

あと質問者さんは誤差を求めたいようですが,誤差の定義は
誤差=測定値-真値
であり,一般に真値は分からないので誤差は分からないことになります.
また何の誤差をお知りになりたいのかも不明です.上のデータが何をあらわしてるのかは不明ですが,
同一のものを60回測定した結果であれば,母集団の平均の推定値がほぼ真値を表しますので,誤差は,ほぼ標準偏差と考えることができるように思います.
一方60個の別のものを測定したとすれば,母集団の平均の推定値は母集団の平均値であり,標準偏差は60個のものの分布を表していることとなり,誤差という話はあまり出てきません.(無理に言えば,製造の誤差と言えなくもありませんが)

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Qエクセルで片対数グラフを作る

エクセルで片対数グラフを作る方法を詳しく教えてください。お願いします。

Aベストアンサー

グラフの数値軸のところで右クリックして
軸の書式設定(O)→目盛(タブ名)

対数目盛を表示する(L)
にチェックを入れてください。

Q金属、半導体の抵抗の温度変化について

金属は温度が高くなると抵抗が大きくなり、半導体は温度が高くなると抵抗が小さくなるということで、理論的にどうしてそうなるのでしょうか。
金属については、温度が上がると粒子が熱振動し自由電子が流れにくくなるというようなことを聞いたことがありますがあっていますか?
半導体についてはまったく理由がわからないので詳しく教えて頂くとありがたいです。
あと自分で調べていたところ「バンド理論」というのを目にしました。
関係があるようでしたらこれも教えて頂くとありがたいです。

Aベストアンサー

こんにちは。

>>>金属については、温度が上がると粒子が熱振動し自由電子が流れにくくなるというようなことを聞いたことがありますがあっていますか?

だいたい合っています。
金属については、温度が上がると正イオン(自由電子が引っこ抜かれた残りの原子)の振動が激しくなるので、自由電子が正イオンに散乱されます(進路を乱されます)。
それをマクロで見たとき、電気抵抗の上昇という形で現れます。

>>>半導体についてはまったく理由がわからないので詳しく教えて頂くとありがたいです。

半導体の中において金属の自由電子に相当するものは、電子とホールです。この2つは電流を担う粒子ですので、「キャリア」(運ぶ人)と言います。
ホールは、半導体物理学においてプラスの電子のように扱われますが、その実体は、電子が欠けた場所のことを表す「穴」のことであって、おとぎ話の登場人物です。
電子の濃度とホールの濃度に違いがあったとしても、一定の温度においては、両者の濃度の積は一定です。
これは、水溶液において、H+ と OH- の濃度の積が一定(10^(-14)mol^2/L^2)であるのと実は同じことなのです。

中性の水溶液の温度が高くなると、H2O が H+ と OH- とに解離しやすくなり、H2O に戻る反応が劣勢になります。
それと同様に、真性半導体においても、温度が上がると電子とホールが発生しやすくなるのに比べて、両者が出合って対消滅する反応が劣勢になるため、両者の濃度の積は増えます。
キャリアが増えるので、電流は流れやすくなります。

こんにちは。

>>>金属については、温度が上がると粒子が熱振動し自由電子が流れにくくなるというようなことを聞いたことがありますがあっていますか?

だいたい合っています。
金属については、温度が上がると正イオン(自由電子が引っこ抜かれた残りの原子)の振動が激しくなるので、自由電子が正イオンに散乱されます(進路を乱されます)。
それをマクロで見たとき、電気抵抗の上昇という形で現れます。

>>>半導体についてはまったく理由がわからないので詳しく教えて頂くとありがたいです。

半導体...続きを読む

QExcelで近似式の標準偏差を算出する方法について

非常に基本的なことをうかがいます。

ExcelでXとYの値が下記のように変化する様子を散布図で描き,2変量の関係を多項式にて求めると下記の式が導出されました。

変数
X  Y
10 100
15 200
20 400
25 800
30 1600

近似式
y = 4.5714x2 - 110.86x + 780
R² = 0.9939

この近似式における標準偏差(正確に言うと予測されるyの標準偏差)はどのように算出すればいいのでしょうか?

よろしくお願いいたします。

Aベストアンサー

残差(y-y')の標準偏差をSTDEVで求めたのですね。

では,標準偏差の定義式を考えてみましょう。

まず,データ(y-y')の分散(不偏分散)とは,その平均(M)からの差の平方和をn-1で割ったものです。
Σ{(y-y')-M}^2/(n-1)

その平方根が標準偏差となります。

EXCELのSTDEVも,式は変形してありますが,そのような計算です。

データ1個づつ,実際にやってみます。

まず Σ{(y-y')の平均Mを求めると
M = 0.07

以下に標準偏差の計算を書きます。 

x  y       y'       y-y'   M  {(y-y')-M}^2
10  100   128.54   -28.54   0.07  818.5321
15  200   145.665   54.335   0.07 2944.690225
20  400   391.36    8.64    0.07 73.4449
25  800   865.625  -65.625   0.07 4315.833025
30  1600  1568.46   31.54    0.07  990.3609
 
            Σ{(y-y')-M}^2       9142.86115
               n-1               4
        Root(Σ{(y-y')-M}^2/(n-1))    47.80915485

当然ですが,EXCELのSTDEVと同じ結果が出ます。

まず,この表の部分を,下に挙げた前回の私の表と比べてください。

x    y      y'   y-y'    (y-y')^2
10  100   128.54  -28.54   814.5316
15  200   145.665  54.335  2952.292225
20  400   391.36   8.64    74.6496
25  800   865.625  -65.625  4306.640625
30  1600  1568.46  31.54   994.7716

違うところは,質問者が
Σ{(y-y')-M}^2

を求めるのに対し,私は
Σ(y-y')^2
つまり,M=0として求めているのです。

質問者は±σを考えたと言いますが,どこからの±σになると思いましたか?
もしかして,モデル曲線の両側σと考えましたか?

それなら間違いです。

質問者の計算は,

残差(y-y')の平均M=0.07の両側σ

になるのです。

つまり,曲線の上側0.07の両側σになるのです。

なぜこうなるのでしょうか?

実は,この計算,私も質問者も,理想的分布なら同じになるのです。

つまり,モデル曲線を挟んで,データが左右均等(例えば正規分布)ならば,
正誤差と負誤差が相殺され,平均M=0になるからです。

しかし,実際のデータは,そのような理想的なものではありません。

だから,曲線の両側のバラツキを考えるなら,強制的にM=0とした計算,つまり私がやった
データと曲線の差の2乗和
Σ{(y-y')^2
にする必要があるのです。

次に,そのあとの計算について。

質問者は,求めた和
Σ{(y-y')-M}^2 = 9142.86115


n-1 = 4
で割って,平方根を取って,標準偏差を出しました。
それが,STDEV関数の計算です。

Root[Σ{(y-y')-M}^2/(n-1)}] =  Root(9142.86115/4) = 47.80915

一方,私は,パラメータ数を引いた自由度
n-3=2
で割って,平方根を取りました。

Root{Σ(y-y')^2/(n-3)} = 67.61244578

前回,標準誤差と言いましたが,正確には,平均残差平方根,です。

y-y' という値を考えてください。

これは,もはや測定値(生のデータ)ではなく,加工された値なのです。
それも,2次関数モデルを使って,です。

だから,その際,推定された係数の数(3)の分だけ,自由度が減ってると考えるわけです。

実は,不偏分散を求める際に,n-1で割るのも,平均を求めるという自由度1が使われているため,
n-1で割るのだという説明もされるのです。

例えば,次のデータ

x
10 
15
20
25
30

この平均M,標準偏差S,不偏分散Vは,
EXCELのAVERAGE,STDEV,VAR関数を用いれば出ます。

M = 20
S = 7.90569415
V = 62.5

当然ですが,V = S^2

Xの散らばりを示すのに,通常は,横軸にこれらの数値をプロットしたり,ヒストグラムにします。

しかし,これを90゜回転させ,y軸上にプロットしてみましょう。

つまり,

x  y
0  10
0  15
0  20
0  25
0  30

というデータセットを考えます。

これをEXCELなどで回帰分析してみます。

EXCELの場合は,ツール → 分析ツール とたどって,回帰分析を利用すれば良いし,その他の統計ソフトでも可能な場合も多い(xが0だけではエラーと出るのもあるが)。

EXCEL回帰分析を上記データで実施すると

分散分析表
    自由度   変動         分散
回帰    1   -2.84217E-14  -2.84217E-14
残差    4    250          62.5
合計    5    250

      係数     標準誤差
切片    20     3.535533906
X 値 1   0        0

と出ます。

つまり,

つまり,傾き0で,y=20という直線が適合し,
残差自由度4,分散62.5,標準誤差3.535533906
などが分かります。

これは,さきほど述べた,平均M,不偏分散V,それを求めるとき割ったn-1=4の値だと分かります。
標準誤差は,
Root(分散/データ数) = Root(62.5/5)
です。

つまり,n-1で割ったのは,y=aという直線を適合した時,
a=20(=平均)というパラメータを求めるためだったのです。

したがって,残差自由度は
1次式 y=ax+b なら,自由度n-2 
2次式 y=ax^2+bx+c なら,自由度n-3

となるのです。

EXCELでは,できませんが,質問の2次関数を回帰分析すると

    自由度   変動      分散      分散比     F確率
回帰  2    1478857.14   739428.57   161.7499491   0.006144395
残差  2    9142.86     4571.43
合計  4    1488000

です。

回帰の自由度2は,x と x^2 を利用したことによります。
残差自由度2は,サンプル数5からパラメータ3(a, b, c)を引いたものです。

*** 結論 ************
長くなりましたが,結局,質問者の示した,EXCELのSTDEVを使うやり方では,モデルからズレの評価で,次の2点で問題が起こるのです。

(1)モデル曲線からのズレでなく,ズレの平均からのズレ,を求めている。
(2)生データのパラメータ自由度n-1を使っていて,モデルのパラメータ自由度n-3が利用されていない。

EXCEL関数を使うと,出来そうな分析でも,これらは生データに利用されるものです。
その定義式を理解してないと,誤用が生じます。

最後に,

>重ね重ね質問してしまいすみません

などと,どうぞ言わないでください。
正確に理解してもらうことは,とても大切だと思っています。

回帰分析の検定?
http://oshiete.goo.ne.jp/qa/6733154.html#answer
という質問に,

>「傾き=0」という回帰結果はありえない
とか
>相関係数rが正であれば45°,rが負であれば-45°を表します

と回答した人がいたので,その説明は違う,と述べたところ,猛反発され,私は落胆しています。

質問者は沈黙してしまい,かえって申し訳ないと思っています。

でも,不明な点は質問し,正しく理解されたほうが良いと思うのです。

時間があれば,この「回帰分析の検定?」
http://oshiete.goo.ne.jp/qa/6733154.html#answer
も見てください。

こんな回答は,悲しい。

残差(y-y')の標準偏差をSTDEVで求めたのですね。

では,標準偏差の定義式を考えてみましょう。

まず,データ(y-y')の分散(不偏分散)とは,その平均(M)からの差の平方和をn-1で割ったものです。
Σ{(y-y')-M}^2/(n-1)

その平方根が標準偏差となります。

EXCELのSTDEVも,式は変形してありますが,そのような計算です。

データ1個づつ,実際にやってみます。

まず Σ{(y-y')の平均Mを求めると
M = 0.07

以下に標準偏差の計算を書きます。 

x  y       y'       y-y'   M  {(...続きを読む

QExcel近似曲線の仕組みについて

Excelグラフの近似曲線についての質問です。

業務でグラフを作成し、近似曲線を出す予定ですが、
Excelの近似曲線はどういった仕組みを使って書き込む方法がありますか?
当方は最小二乗法で書き込む方法しか存じ上げておりませんが、
それ以外にExcelグラフで近似曲線を求める方法はありますか?

業務上精度が悪いと使用できないため、もし他に近似曲線を出せる方法があれば
それも教えて頂きたいです。


よろしくお願いいたします。

Aベストアンサー

どういった近似をしたいのか不明なので,近似全般についてお話しします。

エクセルでは「最小二乗法」を使った近似と,他に「移動平均」を利用することも出来ます。
一般的な意味での「近似曲線」としては,定式化に応じて
・線形近似(直線近似)
・多項式の近似(二次以上の近似)
・指数近似
・対数近似
・累乗近似
などが出来ますが,いずれも最小二乗法を使っているので,基本的な計算方法や精度は同じです。
「グラフに近似曲線を追加する」だけなら,グラフを描いてプロットを右クリック,近似曲線の追加によって希望の近似曲線を追加します。
近似曲線のオプションで「R2」と「近似式」を表示させ,原則としてはR2の値が0.8以上であれば概ね信頼できる近似だと判定します。



>業務上精度が悪いと使用できない

しばしば寄せられるご相談ですが,グラフに表示させた近似曲線の式を「近似値の計算」に使ってはいけません。

「近似値を計算したい」が目的であれば,
・簡単な直線近似なら,FORECAST関数
・一次を含む多項式近似ならTREND関数
・指数近似ならGROWTH関数
を使います。

「近似式のパラメータ(近似係数)を得たい」のが目的であれば
・直線近似ならSLOPE関数とINTERCEPT関数
・多項式近似ならLINEST関数
・指数近似ならLOGEST関数
を使います。具体的な計算方法は,各関数のヘルプをよく読んで計算してください。



参考:
たとえば
A2:A11にXの数値
B2:B11にYの数値
があるとすると
C2に
=LN(A2)
D2に
=LN(B2)
を置いて11行までコピー

=SLOPE(B2:B11,A2:A11)と=INTERCEPT(B2:B11,A2:A11)で線形近似のパラメータ
=SLOPE(D2:D11,A2:A11)と=EXP(INTERCEPT(D2:D11,A2:A11))で指数近似のパラメータ
=SLOPE(B2:B11,C2:C11)と=INTERCEPT(B2:B11,C2:C11)で対数近似のパラメータ
=SLOPE(D2:D11,C2:C11)と=EXP(INTERCEPT(D2:D11,C2:C11))で累乗近似のパラメータ
をそれぞれ得ることも出来ます。


#補足
Excel2002までの近似曲線の計算式にはバグがあるので,近似の計算をしたいときにはExcel2003以降を利用する必要があります。
またExcel2003以降でも,グラフに表示させた近似式には計算間違いしたパラメータが現れる場合があります。


#既にオナカイッパイと思いますので,多項式近似の計算の仕方は下記などを参考に。
http://atiboh.sub.jp/t09takoushiki2.html

どういった近似をしたいのか不明なので,近似全般についてお話しします。

エクセルでは「最小二乗法」を使った近似と,他に「移動平均」を利用することも出来ます。
一般的な意味での「近似曲線」としては,定式化に応じて
・線形近似(直線近似)
・多項式の近似(二次以上の近似)
・指数近似
・対数近似
・累乗近似
などが出来ますが,いずれも最小二乗法を使っているので,基本的な計算方法や精度は同じです。
「グラフに近似曲線を追加する」だけなら,グラフを描いてプロットを右クリック,近似曲線の追加...続きを読む

Q計算値と理論値の誤差について

交流回路の実験をする前に、ある回路のインピーダンスZ(理論値)を計算で求めたあと、実験をしたあとの測定値を利用して、同じ所のインピーダンスZ(計算値)を求めると理論値と計算値の間で誤差が生じました。
そこでふと思ったのですが、なぜ理論値と計算値の間で誤差が生じるのでしょうか?また、その誤差を無くすことはできるのでしょうか? できるのなら、その方法を教えてください。
あと、その誤差が原因で何か困る事はあるのでしょうか?
教えてください。

Aベストアンサー

LCRのカタログ値に内部損失や許容誤差がありますが、この誤差は
1.Rの抵抗値は±5%、±10%、±20% があり、高精度は±1%、±2%もあります。
2.Cの容量誤差は±20% 、+50%・ー20% などがあり
3.Lもインダクタンス誤差は±20%で、
3.C・Rは理想的なC・Rでは無く、CにL分、Lに抵抗分の損失に繋がる成分があります。
これらの損失に繋がる成分は、試験周波数が高くなると、周波数依存で増大します。
また、周囲温度やLCRの素子自身で発生する自己発熱で特性が変化します。
測定器や測定系にも誤差が発生する要因もあります。
理論値に対する測定値が±5%程度発生するのは常で、実際に問題にならないように、
LCRの配分を工夫すると誤差やバラツキを少なく出来ます。
 


人気Q&Aランキング