統計の検定と信頼区間について

Question

統計学で検定，信頼区間について勉強しています。
参考書を読んで理解に努めているのですが，どうもよく分かりません。

＜信頼区間＞
http://dl.cybernet.co.jp/matlab/support/manual/r2007/toolbox/matlab/data_analysis/?/matlab/support/manual/r2007/toolbox/matlab/data_analysis/bqm3cio-1.shtml
上記リンクにおける2次多項式の信頼区間について，
信頼区間とは，データを発生した真の回帰式のパラメータに対して，
推定したパラメータがどれだけ信頼できる値であるかを示しているという
解釈でよろしいのでしょうか？


＜検定＞（http://case.f7.ems.okayama-u.ac.jp/statedu/hbw2-book/node9.html）
回帰における検定で，回帰係数の真の値がゼロでないかどうかを調べる
とあるのですが，なぜこれを調べるのでしょうか？
また，検定は上記の信頼区間の推定とどう関っているのでしょうか？

Ishiwara · Accepted Answer

＃２です。
>> 信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間です。
> 信頼できる区間内に真の値があるということは，もともとの仮説を否定した仮説である帰無仮説は棄却されるのではないのですか？

「信頼区間の中に真の値がある」とする「帰無仮説」は棄却されません。実は、それが「信頼区間」の定義そのものだ、と言っても差支えがないでしょう。

検定することと、信頼区間を求めることは、兄弟のようなものです。検定は、１つの仮説を立てて、それが棄却されるかどうかだけを調べます。信頼区間を求める、ということは、無数に多くの仮説を検定して、どこを境目として検定結果が分かれるのかをさぐることと同じです。

実際には無数回の検定を実行するわけではありません。信頼区間を－∞から＋∞までずっと眺めて行くと、多くの場合「棄却される域」～「棄却されない域」～「棄却される域」のサンドイッチ構造になります。この中央にある「棄却されない域」が「信頼区間」です。

rabbit_cat · Answer

＞＞”予測された応答における”信頼区間
は，推定したパラメータから計算されるｙ^が真の値ｙを表すのに
どれだけもっともらしいか，つまり，ｙ^ がｙの予測値として信頼できる領域
＞ということで
＞＞＞”回帰係数”自体の信頼区間
＞真のパラメータに対して，推定したパラメータ（切片，傾き）がもっともらしい領域
＞という理解でいいのでしょうか？
＞そうすると，「”予測された応答における”信頼区間」と「”回帰係＞数”自体の信頼区間」が同じになりそうなイメージがもてるのですが・・・。

理解（前半部）はまあ正しいんだと思いますが、そこから、何故この２つが同じになりそうというイメージが沸くのかがよく分からないです。
全く別のものですよ。

たとえば、母集団が
Y = aX + b + N
という関係を持っていたとすると、（Ｎは正規分布に従う乱数）
たとえ、回帰係数の真の値（aとb）を知っていたとしても、回帰式
Y' = aX + b
で計算したY'と真の値Yの間には、Ｎの分だけ誤差が残るでしょう。

Ishiwara · Answer

【信頼区間】

<どれだけ信頼できる値であるかを示す、という解釈でよいか？>
この表現自体が非常に不明確です。実に信頼区間の定義は説明しにくいのです。
説明の一つの試み：
信頼区間とは、その内側に真の値があると仮定した場合には、その帰無仮説が棄却されないような区間。裏返せば、その外側に真の値があると仮定した場合には、その帰無仮説が棄却されるような区間。

【回帰における検定】
<回帰係数の真の値がゼロでないかどうかを調べるのはなぜ？>
「真の値がゼロ」つまり「ｘとｙはもともと何の関係もない」場合であっても、回帰係数を計算すると、ほとんどの場合ゼロでない数値が得られます（これは自然のバラツキによるものです）。
しかも、回帰係数は、ｘに対するｙの「傾き」を指すのであって、「大きければ関係が強い」ということにはなりません。
そこで「関係の強さ」は別の観点から調べないといけません。具体的には「ｘとｙは無関係」という帰無仮説が棄却されなければ、係数を算出しても意味がない、よいうことが言えます。

rabbit_cat · Answer

＜信頼区間＞について
おそらく正しくないです。
そのページに書かれている信頼区間は、そのページに書いてあるように、
”予測された応答における”信頼区間
でしょう。
これと、
”回帰係数”自体の信頼区間
は全く別の話です。

「おそらく」と書いたのは、Matlab のpolyfit等の中身の詳細を知らないため、そのページの字面だけで判断したので。

＜検定＞について
そのページにも書いてあるように、
「ある特定の説明変数が目的変数の予測に役立っているかどうか」
は、興味の対象になることが多いです。
「オッカムの剃刀」
http://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%83%E3%82%AB%E3%83%A0%E3%81%AE%E5%89%83%E5%88%80
ていうように、なんか物事を説明するとき、単純なモデルほどよいモデルなんです。
極端な話、パラメータを１００個とか１０００個とか、増やしていけば、回帰誤差はどんどん減っていくでしょうけど、それでなにか説明したことになっていますか、ということです。

回帰係数が０ってことは、そのパラメータは、その出来事を説明するのに必要ではない、ってことがわかります。

統計の検定と信頼区間について

＃２です。

＞＞”予測された応答における”信頼区間

【信頼区間】

この回答への補足

＜信頼区間＞について

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング