アプリ版:「スタンプのみでお礼する」機能のリリースについて

どなたか教えてください。私は統計は苦手なのですがどうしても必要になってしまい困っています。
問題は、最小二乗法で求めた直線式があるとします。X-Yとします。あるXの値X1に対応するY1値は直線式から出ますが、それは100%正しくは無いはず。例えば95%正しいYの範囲はいくつ?
相関係数とかで求まらないものでしょうか?

A 回答 (3件)

回帰直線の信頼区間を求めたいのでしょうね。


検索すれば、色々と出てくるでしょうから調べてみてください。
例えば、エクセルでのやり方ですと参考URLが見つかりますね。
(ただし、#2に書かれている仮定がされてます)

統計学が苦手とは言え、わけもわからず使うのは危険です。
細かい数式まで理解する必要はないと思いますが、原理の要点とどういうときに使えてどういうときに使えないのか位は知っておいた方が良いかと思います。

参考URL:http://www.ipc.shimane-u.ac.jp/food/kobayasi/reg …
    • good
    • 1

一般的に考えると複雑になので、よく使われるモデルで考えることにします。

よく使われる最小二乗法のモデルは、次のようなものです。観測数を n 、定数項を含む説明変数の個数を k とします。

(1)  y[i] = a[1]x[i,1] + a[2]x[i,2]+ ... + a[k]x[i,k] + u[i]
    (i = 1,2, ..., n)

y[i] は、被説明変数の i 番目の観測値
x[i,j] は、j 番目の説明変数の i 番目の観測値
u[i] は、 i 番目の観測値にかかるかく乱項
a[j] は、これから推計すべき係数パラメータ

ちなみに、定数項を持つ1 変数の最小二乗法は、ここでは 2 変数( k = 2)とみなします。
さらに、次の重要な仮定が置かれます。

(2)  (仮定)u[1]、u[2]、... 、u[n] は、独立で、平均が 0 、分散が一定の正規分布に従う確率変数である。

この仮定により、y[i] も確率変数になります。

(3)  (推計値)最小二乗法による a[j] の推計値を a_est[j] と記すことにします。 また、説明変数に代入する値を z = (z[1], z[2], ... , z[k]) とします。 z は、推計に使った i 番目の観測値 x[i,1], x[i,2], ... , x[i,n]でもよいし、全然別のところから持ってきた値でもよいことにします。 z における y の推計値を y_est(z) と表すことにします:

  y_est(z) = a_est[1]z[1] + a_est[2]z[2] + ... + a_est[k]z[k]

a_est[j] や y_est(z) は、確率変数です。

(4)  (真の値)推計値の信頼区間を求めるためには、何を「真の値」とするか決めておかなければなりません。ご質問ではこの点が曖昧なので、とりあえず、次の y(z) を真の値とします。

  y(z) = a[1]z[1] + a[2]z[2] + ... + a[k]z[k]



(5)  ( y_est(z) の期待値と分散) y_est(z) は、正規分布に従います。さらに次の式が成立します:

  y_est(z) の期待値 = y(z)
  y_est(z) の分散 = zV(a)z'

ここで、z' は、z の転置行列です。また、 V(a) は、a_est[1], a_est[2], ... , a_est[k] の共分散行列です。気の利いた統計ソフトなら、V(a) が出力されると思います。

(6)  (95 %信頼区間)

標準正規分布では、-1.96 と 1.96 の間に入る確率が 95 %です。よって、(5) により、次のことが分かります。

z における推計値の信頼区間
  = ( y_est(z)-1.96(zV(a)z')^0.5, y_est(z)+1.96(zV(a)z')^0.5 )

(7)  (補足)

上の信頼区間は、観測値が 95%の確率でこの区間に入ることを意味するものではありません。観測値には、y_est(z) の分散に加えて、(1)にみられるようなかく乱項による散らばりが伴います。かく乱項とy_est(z) にどのような相関関係があるか一概に言えないので、この2つを合わせた分散も一概に計算できません。ただ、かく乱項とy_est(z) の相関係数が 1 のとき、2つを合わせた分散が最大になり、その時の値は、(zV(a)z')^0.5 + σ)^2 です。ただし、σは、u[i] の標準偏差です。
    • good
    • 0

(1) Yは、Xとパラメータベクトルpだけを含む式f(p,X)で完璧に正しく表せる。

(なお「直線式」と仰るのは、式f(p,X)が一次式
  f(p, X) = p[1] X + p[0]
の場合に相当すると思われますが、話はこれに限定されるわけじゃありません。)
(2) Xが或る値X[j]であるときのYの測定値をY[j]として、(X[j], Y[j]) (j∈{1,2,..,N})が与えられている。しかも、Nはpの次元よりも大きく、全てのj∈{1,2,..,N}について、Yの測定値Y[j]は、他の測定値k∈{1,2,..,N} (k≠j)と独立である。(測定誤差が相互に相関を持たない。)
(3) 測定値Y[j]が含む測定誤差ε[j]の分布は、確率密度関数φ(j, ε[j])に従い、この確率密度関数は全てのjについてそれぞれ既知である。
という条件が満たされていれば、あるXを指定した時に、それに対応するお尋ねの「95%正しいYの範囲」をある程度の精度で計算することは可能です。(その具体的な計算方法は(1)~(3)が具体的にどうなってるかに応じて考案する必要があります。)
 しかし現実には、ことに(1)と(3)が満たされることはまずありませんから、ムリ。

 一方、ご質問がごくおおざっぱな話であって、たとえば「(1)(2)(3)を仮定し、かつ、Xの値によらず誤差の分布φは(既知でありしかも)一定だと仮定する。さらに、Yの測定値が含む誤差はあんまり大きくないと仮定する」というような仮定のもとで「95%正しいYの範囲」を推定するんであればだいぶ単純です。
 まず、最小二乗法で(2)の測定値から算出したパラメータpは、(2)のY[j]が含む誤差によって変動する確率変数である。そこでpの(2次元)分布を推定します。すると、あるXの値X1を指定したときのY1の値の確率分布ξも推定できます。その分布ξに従う確率変数yから、φに従うランダム変数εを引いたものが「真値」である。だから、XがX1であるときのYの値はξとφを畳み込み積分して得られる確率分布に従っていることになります。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!