マンガでよめる痔のこと・薬のこと

どなたか教えてください。私は統計は苦手なのですがどうしても必要になってしまい困っています。
問題は、最小二乗法で求めた直線式があるとします。X-Yとします。あるXの値X1に対応するY1値は直線式から出ますが、それは100%正しくは無いはず。例えば95%正しいYの範囲はいくつ?
相関係数とかで求まらないものでしょうか?

このQ&Aに関連する最新のQ&A

A 回答 (3件)

回帰直線の信頼区間を求めたいのでしょうね。


検索すれば、色々と出てくるでしょうから調べてみてください。
例えば、エクセルでのやり方ですと参考URLが見つかりますね。
(ただし、#2に書かれている仮定がされてます)

統計学が苦手とは言え、わけもわからず使うのは危険です。
細かい数式まで理解する必要はないと思いますが、原理の要点とどういうときに使えてどういうときに使えないのか位は知っておいた方が良いかと思います。

参考URL:http://www.ipc.shimane-u.ac.jp/food/kobayasi/reg …
    • good
    • 1

一般的に考えると複雑になので、よく使われるモデルで考えることにします。

よく使われる最小二乗法のモデルは、次のようなものです。観測数を n 、定数項を含む説明変数の個数を k とします。

(1)  y[i] = a[1]x[i,1] + a[2]x[i,2]+ ... + a[k]x[i,k] + u[i]
    (i = 1,2, ..., n)

y[i] は、被説明変数の i 番目の観測値
x[i,j] は、j 番目の説明変数の i 番目の観測値
u[i] は、 i 番目の観測値にかかるかく乱項
a[j] は、これから推計すべき係数パラメータ

ちなみに、定数項を持つ1 変数の最小二乗法は、ここでは 2 変数( k = 2)とみなします。
さらに、次の重要な仮定が置かれます。

(2)  (仮定)u[1]、u[2]、... 、u[n] は、独立で、平均が 0 、分散が一定の正規分布に従う確率変数である。

この仮定により、y[i] も確率変数になります。

(3)  (推計値)最小二乗法による a[j] の推計値を a_est[j] と記すことにします。 また、説明変数に代入する値を z = (z[1], z[2], ... , z[k]) とします。 z は、推計に使った i 番目の観測値 x[i,1], x[i,2], ... , x[i,n]でもよいし、全然別のところから持ってきた値でもよいことにします。 z における y の推計値を y_est(z) と表すことにします:

  y_est(z) = a_est[1]z[1] + a_est[2]z[2] + ... + a_est[k]z[k]

a_est[j] や y_est(z) は、確率変数です。

(4)  (真の値)推計値の信頼区間を求めるためには、何を「真の値」とするか決めておかなければなりません。ご質問ではこの点が曖昧なので、とりあえず、次の y(z) を真の値とします。

  y(z) = a[1]z[1] + a[2]z[2] + ... + a[k]z[k]



(5)  ( y_est(z) の期待値と分散) y_est(z) は、正規分布に従います。さらに次の式が成立します:

  y_est(z) の期待値 = y(z)
  y_est(z) の分散 = zV(a)z'

ここで、z' は、z の転置行列です。また、 V(a) は、a_est[1], a_est[2], ... , a_est[k] の共分散行列です。気の利いた統計ソフトなら、V(a) が出力されると思います。

(6)  (95 %信頼区間)

標準正規分布では、-1.96 と 1.96 の間に入る確率が 95 %です。よって、(5) により、次のことが分かります。

z における推計値の信頼区間
  = ( y_est(z)-1.96(zV(a)z')^0.5, y_est(z)+1.96(zV(a)z')^0.5 )

(7)  (補足)

上の信頼区間は、観測値が 95%の確率でこの区間に入ることを意味するものではありません。観測値には、y_est(z) の分散に加えて、(1)にみられるようなかく乱項による散らばりが伴います。かく乱項とy_est(z) にどのような相関関係があるか一概に言えないので、この2つを合わせた分散も一概に計算できません。ただ、かく乱項とy_est(z) の相関係数が 1 のとき、2つを合わせた分散が最大になり、その時の値は、(zV(a)z')^0.5 + σ)^2 です。ただし、σは、u[i] の標準偏差です。
    • good
    • 0

(1) Yは、Xとパラメータベクトルpだけを含む式f(p,X)で完璧に正しく表せる。

(なお「直線式」と仰るのは、式f(p,X)が一次式
  f(p, X) = p[1] X + p[0]
の場合に相当すると思われますが、話はこれに限定されるわけじゃありません。)
(2) Xが或る値X[j]であるときのYの測定値をY[j]として、(X[j], Y[j]) (j∈{1,2,..,N})が与えられている。しかも、Nはpの次元よりも大きく、全てのj∈{1,2,..,N}について、Yの測定値Y[j]は、他の測定値k∈{1,2,..,N} (k≠j)と独立である。(測定誤差が相互に相関を持たない。)
(3) 測定値Y[j]が含む測定誤差ε[j]の分布は、確率密度関数φ(j, ε[j])に従い、この確率密度関数は全てのjについてそれぞれ既知である。
という条件が満たされていれば、あるXを指定した時に、それに対応するお尋ねの「95%正しいYの範囲」をある程度の精度で計算することは可能です。(その具体的な計算方法は(1)~(3)が具体的にどうなってるかに応じて考案する必要があります。)
 しかし現実には、ことに(1)と(3)が満たされることはまずありませんから、ムリ。

 一方、ご質問がごくおおざっぱな話であって、たとえば「(1)(2)(3)を仮定し、かつ、Xの値によらず誤差の分布φは(既知でありしかも)一定だと仮定する。さらに、Yの測定値が含む誤差はあんまり大きくないと仮定する」というような仮定のもとで「95%正しいYの範囲」を推定するんであればだいぶ単純です。
 まず、最小二乗法で(2)の測定値から算出したパラメータpは、(2)のY[j]が含む誤差によって変動する確率変数である。そこでpの(2次元)分布を推定します。すると、あるXの値X1を指定したときのY1の値の確率分布ξも推定できます。その分布ξに従う確率変数yから、φに従うランダム変数εを引いたものが「真値」である。だから、XがX1であるときのYの値はξとφを畳み込み積分して得られる確率分布に従っていることになります。
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q最小自乗法で求められた傾きの誤差

データ列(x,y)がn個あって、それを最小自乗法でフィッティングして
y=ax+bにおける傾きaが得られました。

そこで、yの測定誤差が例えば±10%あったとき、
傾きaの誤差δaはどのように求められるのでしょうか?

データ数nが多いほどδaは小さくなるとは思いますが・・・。
よろしくお願いいたしますm(_ _)m

Aベストアンサー

ごめんなさい、まだ続きがあるのとちょっと間違いがありました。_o_

>今yの誤差を考えているのでxi→yiでしょうか?
いいえこちらは、xiで間違いありません。

<訂正部分>
まず、σa と σb が入れ替わっていました。
つまり、
σa^2 = N / Δ
σb^2 = Sxx / Δ
です。
が、さらに追加があって、この式ではσi=1 (一定)と仮定して計算しましたので、その分の補正をかけなければならないことを忘れていました。
得られたσa, σbにたいして、

sqrt[ Χ^2 / (N-2)]

をかけて、その値をσa,σbとしてください。

ここでΧ^2は回帰したときの平方和です。(つまり (y - yi)^2 をi=1,,Nで和をとったもの)

今度は間違いがあるといけないので、お示しのデータで検算しました。

傾き---- 0.143341085
切片---- 0.237704298

が68.3%誤差範囲です。
今度はExcelのLinest関数と答えあわせして、OKでしたので間違いないでしょう。
((ΔΧv)^2の数値はLinestでは出てきませんけど。σa, σb は計算してくれます)

では。

ごめんなさい、まだ続きがあるのとちょっと間違いがありました。_o_

>今yの誤差を考えているのでxi→yiでしょうか?
いいえこちらは、xiで間違いありません。

<訂正部分>
まず、σa と σb が入れ替わっていました。
つまり、
σa^2 = N / Δ
σb^2 = Sxx / Δ
です。
が、さらに追加があって、この式ではσi=1 (一定)と仮定して計算しましたので、その分の補正をかけなければならないことを忘れていました。
得られたσa, σbにたいして、

sqrt[ Χ^2 / (N-2)]

をかけて、その値をσa,σbとしてく...続きを読む

Q平均値と最小自乗平均値

いままで、なんとなくわかったつもりでいましたが、
いざ,自分が使おうとすると考え込んでしまって
どうすればいいのか、頭がゴチャゴチャしてきました・・・。
この二つの意味の違いと、どういう時に使い分けるのかを
教えてください。

Aベストアンサー

まず、補足要求させてください。
できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単純平均値と最小自乗平均値は正確に同じ値になるはずです。

ところが、左右対称とは大きくかけ離れた分布であれば、単純平均値と最小自乗平均値は、かなり異なる値になるでしょうね。

単純平均値を用いずに、わざわざ最小自乗平均を用いるのはなぜか、というのが、ご質問の趣旨ですね?

要はこういうことなのでは?
単純平均値に対して±標準偏差を考えると、標準偏差の値が大きくなっちゃうじゃないですか。
最小自乗平均に対して±標準偏差を考えれば、当然、標準偏差の値が小さくて済みます。

ですから、例えば、あるもののばらつき許容を考えるときに、許容範囲を不必要なまでに広げる必要がなくなるというのが、最小自乗平均の利点だと思います。
というか、むしろ、最小自乗平均を使うほうが、工業的には便利そうですよね。

ただ、単純平均値も、データ全体のことを良く表している数値ですし、計算方法も万民が知っていて理解しやすいですから、捨てがたいのでしょうね。

まず、補足要求させてください。
できたら、最小自乗平均値の定義を教えてください。

以下、推測に基づいて書いちゃいますが、

最小自乗平均値というのは、おそらく、
ある中央値みたいなのを1つ決めると、それと各データとの差の2乗を1個1個足し算した結果が最小になるということでは?
すると、要は、最小二乗法で近似直線を求めるのと同じ考え方になりますね。

さらに、その仮定に基づいて書きますと、
正規分布(ガウス分布)か、あるいはそうでなくても、とにかく左右対称な分布ならば、単...続きを読む

Q誤差を考慮した最小二乗法

誤差を考慮した最小二乗法
実験で「誤差を考慮した最小二乗法で計算せよ。尚、誤差を考慮しない場合は減点する。この場合の誤差とは標準偏差の事である。」という課題何ですが誤差を考慮した最小二乗法とはどうゆう事なのでしょうか?

http://www.dotup.org/uploda/www.dotup.org828193.xls.html
のデータにて
http://www.akita-nct.ac.jp/~yamamoto/lecture/2007/5E_comp_app/interpolation/interpolation_html/node4.html
のサイト様を参考にして一次関数の最小二乗法で計算しようと思ったのですが標準偏差はどこに入れればいいのでしょうか?グラフを作った後に誤差棒として標準偏差を入れるという事なのでしょうか?

Aベストアンサー

普通は質問文に上げてあるサイトや、Wikipediaの最初のほうに書いてあるように、
最小二乗法は、残差二乗和を最小にするように係数を決める方法だと書いてあります。
しかしこれは、標準偏差がσすべて同じ場合に限られます。

各測定点でばらつきが異なりそれが既知である場合には、xとyに

y=f(x; a, b, ...)

というモデルを採用した場合には

残差二乗値

E(a,b,...) = Σi ([yi-f(xi; a, b, ...)])^2

ではなく、χ二乗値と呼ばれる

χ^2 = Σi ([yi-f(xi; a, b, ...)]/σi)^2

を最小にします。モデルが一次式ならば y = ax +b なので

χ^2 = Σi ([yi-axi-b]/σi)^2

です。したがって、

E(a,b) = Σi ([yi- axi - b])^2

をスタートにする代わりに

χ^2 = Σi ([yi-axi-b]/σi)^2

から初めて、質問文にあるサイト

http://www.akita-nct.ac.jp/~yamamoto/lecture/2007/5E_comp_app/interpolation/interpolation_html/node4.html

に書いてあることと、全く同じように求めていけばいいです。
課題ということですので、以下、ご自身で行ってください。

普通は質問文に上げてあるサイトや、Wikipediaの最初のほうに書いてあるように、
最小二乗法は、残差二乗和を最小にするように係数を決める方法だと書いてあります。
しかしこれは、標準偏差がσすべて同じ場合に限られます。

各測定点でばらつきが異なりそれが既知である場合には、xとyに

y=f(x; a, b, ...)

というモデルを採用した場合には

残差二乗値

E(a,b,...) = Σi ([yi-f(xi; a, b, ...)])^2

ではなく、χ二乗値と呼ばれる

χ^2 = Σi ([yi-f(xi; a, b, ...)]/σi)^2

を最小にします。モデルが一次式な...続きを読む


人気Q&Aランキング