統計：帰無仮説とp値について

Question

統計の初心者です。
統計学の復習をしていて、帰無仮説が棄却されるときの理由についてわからなくなりました。

配布されたプリントには、こんなふうに書かれています。

●帰無仮説：統計的な推論の出発点になる。最終的には破棄したい仮説。
　多くは、「有意水準」（＝そうなる確率）5%で、それ以上なら採択、それ以下なら棄却する。
　　＝帰無仮説が正しい場合、全く偶然にそれくらい標本統計量が大きい値になってしまう確率

　・臨界値を超えていない→帰無仮説を採択。
　・臨界値を超えている→帰無仮説を棄却、対立仮説を採択する。

また、検定について、ネット上では

●無帰仮説が正しいなら滅多に起こらない事象（＝この前提が覆るような珍しいケース）が
　発生する確率を計算で求める。
　この「めったに起こらない・起こる」の境界値を「有意水準」と呼び、これを超えた場合は、
　前提とした仮説は間違っていたと解釈。（統計では「棄却」と呼ぶ。）

とあります。

帰無仮説が正しいとした場合、「それが滅多に起こらない」（p<0.05など）というのは、
どちらかというと、帰無仮説を棄却することに繋がりそうに思えるのですが、
この状態で帰無仮説が正しいと言える理由がわかりません。
ですので、「これを超えた場合に帰無仮説が棄却される」という論理もわかりません。

このことについて詳しく教えてくださいませんでしょうか。
よろしくお願いいたします。

stomachman · Accepted Answer

ANo.1の追加説明です。
　ご覧のプリントに限らず、デタラメな説明がろくに考えもせずに垂れ流されているでしょうかね。嘆かわしいことです。

「帰無仮説」は、棄却されれば否定され、棄却されなければ何も言えない。だからいずれにせよ「成り立つ」ということは決してない。そういう悲しい運命にふさわしいネーミングです(笑。「証明したいことが無に帰す」なんてコジツケじゃありません（晋ちゃんの答弁じゃあるまいし）。

「帰無仮説を棄却するという判断が誤りである確率p」は帰無仮説から導く。もっぱらそのためにこそ、帰無仮説というものが使われます。どういうことかと言うとですね：
　ANo.1のコインの話なら、「表が50%・裏が50%だ」と表明している帰無仮説は、もっと厳密に言いますと「毎回のコイントスは独立である（過去に出た結果とは無関係である）。そして、毎回のコイントスで表・裏が出る確率は一定のままである」ということも含意しているんです。
　で、これらの仮定から、確率論によって「表・裏がでる頻度は二項分布に従う」ということが帰結できる。なので、たとえば「10回トスしたら表が1回、裏が9回出た」という実験結果があれば、「二項分布に従い表が出る確率が50%である実験において、『10回中表が1回だけ出ないか、それ以上に珍しいこと』が偶然生じる確率pが幾らであるか」が確率論で計算できる。
　そういう仕掛けです。ですからもちろん（帰無仮説が「実験結果は正規分布に従う」ということを含意していないのなら）有意水準と正規分布とは無関係です。

なお、「確率統計」だなんていい加減な表現がしばしば使われますけれども、両者は全くの別物です。
　確率論は「仮定が（完璧に）成り立つ場合に、どんな確率が生じるか」を計算する、揺るぎない数学です。もちろん、その仮定が現実に成り立ってるのかどうか、という心配については一切扱わない。
　一方、統計は実験や過去の経験に基づき、それに確率論を応用することによって、現実がどうなってるかについて推測を行うものであって、これは数学ではない。

yhr2 · Answer

一般に、統計で何かを議論するときには、何らかの「仮説」と「実際に観察された結果（得られたデータ）」との差が、単なる偶然の誤差ではない、明らかな相違があることを、「統計的に有意である」といいます。「違いには意味がある」ということです。
　逆に言えば、「偶然の一致」とか「誤差の範囲内」ということであれば、「統計的に有意ではない」（違いに論理的な理由がない）ということです。

仮説としては、「証明したいこと」を否定する仮説を立てるのが普通です（帰無仮説＝それが正しかったら、証明したいことが無に帰す、という意味なのでしょう）。

この2つを合わせて、「帰無仮説」と「実際に観察された結果（得られたデータ）」との差が、単なる偶然の誤差か、それとも、それでは済まされない、つまり明らかに相違する理由がある、相違には意味がある、ということを見分けることが、統計を使った作業となります。
　通常であれば、結果的に「帰無仮説」が誤りであることを示し、最初に「証明したかったこと」が正しいことを証明する、ということです。

「単なる偶然の誤差ではない」ことを示すための判断基準として、あらかじめ「有意水準」を定めます（この範囲を外れたら「有意」＝「単なる誤差範囲ではない」とみなす基準、通常５％など）。

この「有意水準５％」は、下記のような「正規分布」を仮定しています。正規分布では、「平均値を中心として、標準偏差の±2倍」の範囲内に約95％が入り、その外側になる確率は5％程度です。「標準偏差の±３倍」だと、範囲内に99.7％が、範囲外が0.3％になります。
　通常、「標準偏差程度の違い」は32%程度起こり得ますが、「標準偏差の2倍、３倍」となるとなかなか起こりにくくなるということです。「有意水準５％」ということは、「標準偏差の2倍」以上離れていたら、「偶然では起こり得ない、珍しいこと」「明らかに違いがある」「違いが生じる理由がある」とみなす、ということです。
（統計では、この左右対称の正規分布全体（両側）ではなく、左半分だけ（片側）を使うことが多い）

http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm
http://www.geisya.or.jp/~mwm48961/statistics/stddiv1.htm

何故「帰無仮説」などというまどろっこしいものを使うかと言えば、似たようなものがたくさんある中で、「同じであることを示す」というのは実は難しくて、「違いを探せ」という方が簡単なのです。ですから、「帰無仮説」というものを持ち出して、「誤差範囲を超えて違う」ことを示すのです。

プリント自体は、特に間違ったことを書いているわけではありませんが、上に書いたような「本来の意味」を理解していないと、「書かれていることの意味が分からない」「何故そうする必要があるのか納得しにくい」と思います。
　ネット上の「検定」の説明も、イマイチですね。
　変な表現のしかたで悩むより、きちんとした統計の教科書を買って勉強するほうが、「正しく深い理解」が得られると思います。

kmee · Answer

日常生活では
「ダムの水位が基準を越えたので断水します」
みたいに、小さい方へ「越える」という言葉を使います。

p≧0.05 : 基準に達していない→棄却できない
p<0.05 : 基準を(小さい方へ)越した→棄却

と解釈することができます。

ただ。
・数学用語として、「AがBを越える」とは「A>B」の意味で使われている
・「棄却できない」と「採択する」は同値ではない
という点で問題のある表記だと言えます。

stomachman · Answer

ご覧のプリントには「帰無仮説を採択」とか書いてあるんですか？
　だとすれば、全くの間違いです。そんなスカタンなプリントを書く奴には、人に教える資格がありません。

> それ以上なら採択

違います。そのときには、帰無仮説は（その名の通り）無に帰す。すなわち、何も言えず、「これだけのデータでは結論は出せなかった」と述べるのが関の山なんです。
　帰無仮説に意味があるのは棄却されたときだけであり、棄却されることによって「帰無仮説の否定」が結論できるんです。

> 「それが滅多に起こらない」（p<0.05など）

帰無仮説を棄却するという判断が誤りである確率（本当は何も言えないのに、偶然のせいで統計量がたまたま偏っていたために、「帰無仮説が棄却できる」と結論してしまうという誤りが生じる確率）がpです。
　pは帰無仮説が正しいと仮定することによって計算します。だから、pは「帰無仮説が正しいのに、帰無仮説を棄却するという誤った判断をする確率」に他なりません。
　
　「帰無仮説を棄却できない」ということと「帰無仮説を採択する」ということとは全く別の話です。
　たとえば、
H1「このコインを投げると、表が出る確率が50%、裏が出る確率が50%である」
という帰無仮説を立てて20回投げてみたら、10回が表、10回が裏であって、帰無仮説H1が棄却できなかったとしましょう。
　さて、同じ実験で、
H2「このコインを投げると、表が出る確率が51%、裏が出る確率が49%だ」
という帰無仮説もまた棄却できない。
　棄却できない帰無仮説を採択するのだとすると、
H1かつH2「このコインを投げると、表が出る確率が50%であり、表が出る確率が51%であり、裏が出る確率が50%であり、裏が出る確率が49%である」
という、ヘンテコリンな結論が得られることになります。
　どこがおかしいかというと、「棄却できない帰無仮説を採択する」というところ。棄却できない帰無仮説は単に無に帰すのであり、H1もH2も結論できません。

統計：帰無仮説とp値について

ANo.1の追加説明です。

一般に、統計で何かを議論するときには、何らかの「仮説」と「実際に観察された結果（得られたデータ）」との差が、単なる偶然の誤差ではない、明らかな相違があることを、「統計的に有意である」といいます。

日常生活では

ご覧のプリントには「帰無仮説を採択」とか書いてあるんですか？

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング