統計的検定法について

Question

統計を学び始めたばかりの素人です。以下の問いについて解説をいただきたいです。
テキストの章末問題なのですが、解答のみで解き方が分からず質問させていただきました。
数学の知識もあまり無い状態で、式に使われている⊆みたいなものの意味もよくわかっていない状態です。


あるサイコロを720回なげたところ、3の目が138回でた。このとき、次の問いに答えよ。
（1）
三の目が出る回数をX、三の目が出る確率をpとし、帰無仮説H0:p＝1/6が成り立つとする時、期待値E（X）と分散V（X）を求めよ。

↑について、期待値は720/6で120なのだなと何となくわかるのですが、分散についてどの様に計算して良いかがわかりません。
ちなみに答えは100となっています。

（2）対立仮説H1:p≠1/6に対して、有意水準5%で検定せよ
（3）対立仮説H1:p＞1/6に対して、有意水準5%で検定せよ

↑については正直何も分からず、丸投げで申し訳ないのですが解説をお願いしたいです。
何が分からないのか言語化することすら難しいのですが、特に棄却域の決め方、またそれを利用して棄却されるか否かを検定するための計算方法を教えて頂きたいです。

計算記号の意味もよく理解できていないので、ご回答いただいたことに対して補足質問させていただくこともあると思いますが、どうかよろしくお願いいたします。

yhr2 · Accepted Answer

No.2 です。「補足」について。

＞の部分で、「10」は一体どこから現れたのか…と悩んでおります。

(1) の最後に書いた
「分散が「100」ということは、標準偏差はその平方根の「10」です」
の「標準偏差」です。

標準正規分布は「標準偏差が1」になるように規格化されているので、その標準正規分布表から読み取った値が「1.96」ということは、取り扱っている分布では標準偏差は「10」ですから「19.6」ということになります。

＞その場合標準正規分布表のどこを見れば1.96が導けるのかがいまいちわかっていません。

下記の標準正規分布表では「1.96」の「1.9」を「左の見出し」から、その下の桁の「6」（つまり0.06）を「上の見出し」から読み取ります。
表の中に書かれた「確率値」が、この場合の有意水準 5% の片側値 2.5% = 0.025 になる Z 値（表の「見出し」の値）を読み取ります。

見出しが「1.95」のとき確率値（表中の値）が「0.025588」でちょっと大きい
見出しが「1.96」のとき確率値（表中の値）が「0.024998」でちょっと小さい
でも「1.96」のときの方が「0.025」に近そう、ということで
　Z ≒ 1.96
と読み取っています。
（ある程度統計をやっていると、2.5% が 1.96 というのは、一種の定数のようによく使うので覚えてしまいます）

有意水準は「確率値」であって、その確率値に対応する「統計変数（Z値）」を求めるという操作です。（下記の表の上に書かれている図を見てください）

標準正規分布表（多分、お使いのテキストの巻末にも載っています）
↓
https://unit.aist.go.jp/mcml/rg-orgp/uncertainty_lecture/normsdist.html

パソコンの統計ツールなどをお使いの場合には、それを求める「関数」などがあると思います。
汎用のエクセルだと
　NORM.INV(確率、平均、標準偏差)
の関数で「累積確率」（-∞～その値までの累積確率）に対する「統計変数（Z値）」が求まります。
上側確率からの Z 値を求めたい場合には 1 - 0.025 = 0.975 を使って
　NORM.INV(0.975,0,1) = 1.959964
となります。

関数を使うのであれば、いちいち「標準正規分布」の変換しなくとも、たとえば、検定で使う N(120, 10^2) から直接
　NORM.INV(0.975,120,10) = 139.5996
と求めてもよいです。
（ただ、関数を使うと「何をしているのか」が見えなくなるので、アナログながら「標準正規分布表」を使ってイメージを持ちながら勉強することをお勧めします）

kamiyasiro · Answer

No.3です。訂正させて下さい。

誤）たぶん、テキストでは添付図の正規分布近似を使っています。
↓
正）たぶん、テキストでは添付図の直接的近似を使っています。

kamiyasiro · Answer

３の目とそれ以外という二値モデルで考えています。本来は６項のディリクレ分布になりますが、入門用の問題なので簡略化しています。

何を言いたいかというと、実際にサイコロはある頂点から見ると奇数しか見えない頂点と、偶数しか見えない頂点があり、「半」か「長」かというように目の出現傾向が似かよる（＝独立ではない）性質があります。

そのため、イカサマサイコロかどうかの判定は、この問題のように簡単ではありません。あくまで練習用の設定ですね。

さて、

＞ 分散についてどの様に計算して良いかがわかりません。

標本比率ｐの平均と分散の求め方の表を添付します。
観測数の期待値は比率ｐにｎ数を掛ける、観測数の分散は標本比率の分散にn^2を掛けることで求められます。

たぶん、テキストでは添付図の正規分布近似を使っています。
ただし、正規分布の誤差は対称です。
一方、二値モデルの誤差は本来非対称です。
特に、確率０および１に漸近する部分では非対称性は顕著になります。

そのため、正規分布近似を使うときは、０近傍や１近傍のスケール（尺度）を拡大して正規分布を当てはめます。
それがロジット変換や逆正弦変換になります。

ご質問者が社会人で、実務で使う場合、不良率などは０漸近しているハズです。必ずロジット変換や逆正弦変換が必要になります。
実際にＱＣ検定に出題されています。

分散の計算方法は一つではないことを覚えておくと良いと思います。

＞ 特に棄却域の決め方、また・・・

両側検定、片側検定の違いですが、これについては他の方が丁寧に説明されていますので、省略します。

yhr2 · Answer

サイコロは、正常に作られたものであれば
・「3」の目の出る確率は 1/6
・「３以外」の目が出る確率は 5/6
です。
これを「n 回」投げたときに、「３」の目が出る回数は「確率 1/6 の二項分布」します。

確率 p の二項分布では、n 回試行して r 回起こる確率は
　P(n, r) = nCr × p^r × p^(n - r)
で、その期待値は
　E = np
分散は
　V = np(1 - p)
になります。

これは、「二項分布」を勉強して、一生に一度自分で導出すれば、あとは本やネットで式を確認して使えばよいです（暗記できればそれに越したことはない）。

二項分布
↓
https://bellcurve.jp/statistics/course/6979.html
https://bellcurve.jp/statistics/course/6982.html

(1) 従って、p=1/6、n=720 のときには
　期待値：E = np = 720 × 1/6 ＝ 120
　分散　：V = np(1 - p) = 720 × 1/6 × 5/6 = 100
になります。

分散が「100」ということは、標準偏差はその平方根の「10」です

(2) おそらく、「試行回数が多ければ、二項分布は正規分布で近似できる」ということを使うのだと思います。

上記の分布で、p=1/6 に対する「有意水準5%」だと、大きい方に外れることも小さい方に外れることもあるので、
・大きい方に 2.5%
・小さい方に 2.5%
を棄却域にします。
つまり「両側検定」です。

「138回」は平均より大きいので、「大きい方の 2.5%」に入るかどうかを調べます。
下記の「標準正規分布表」から、「大きい方の 2.5%」に入るZ値は
　1.96
なので、
　120 + (10 × 1.96) = 120 + 19.6 = 139.6
ということになります。
「138」はこの範囲内に入るので、「起こり得る」として帰無仮説は否定できないことになります。

つまり、帰無仮説H0:p＝1/6 は否定できません。

標準正規分布表
↓
https://unit.aist.go.jp/mcml/rg-orgp/uncertainty_lecture/normsdist.html

(3)「対立仮説H1:p＞1/6」ということは「H0:p≦1/6」ということで、これに対する「有意水準5%」は大きい方に外れることだけなので、
・大きい方に 5%
を棄却域にします。
つまり「片側検定」です。

上記の「標準正規分布表」から、「大きい方の 5%」に入るZ値は
　1.64
なので、
　120 + (10 × 1.64) = 120 + 16.4 = 136.4
ということになります。
「138」はこの範囲から外れるので、「起こり得ない」として帰無仮説は否定されます。

つまり、帰無仮説「H0:p≦1/6」が否定され、「95％ の信頼度で p > 1/6 である」との判定結果になります。

stomachman · Answer

(1) 事象Xが確率pで生じるような独立試行をn回やった場合に、事象Xがちょうどk回生じる確率は二項分布
　　B(n,p)(k) = nCk (p^k)((1 - p)^k)
に従う。そして、二項分布B(n,p)の期待値はnp, 分散はnp(1- p)だ。
ということを知らずに自力で導くのは、難しくはないが、それなりに大変。

(2) 「対立仮説」 は「検定仮説」と対になる用語で、ネイマン・ピアソンの検定法に出てくる。一方「帰無仮説」はフィッシャーの検定法の用語で、こちらでは「対立仮説」なんてものはない。（そして、論理的にはネイマン・ピアソンの検定法はマルデダメ。）…というイチャモンはちょっと置いといて：

「H0が成り立っているのに偶然、kが138=(120 + 18) 回以上、あるいは102=(120 - 18) 回以下になる確率」を計算して、これがもし5%以下なら「危険率5%でH0は棄却。なので（H0の否定である）p≠1/6」が結論。また、もし5%より大きいなら「危険率5%でH0は棄却できない（何も言えない）」が結論。

というルールを適用して結論を出せってことです。（「危険率」は「有意水準」ともいう。）
　しかし真面目に「k=138〜720あるいはk=0～102になる確率」を計算するのは、表計算ソフトを使っても大変。そこで、
　　B(n,p) 〜 N(np, np(1-p))
すなわち「B(n,p)は（nがソコソコ大きいなら）平均np, 分散np(1-p)の正規分布で良く近似できる」ということを利用し、正規分布表を使う。（正規分布表を使った検定の練習問題はすでにやってあるんじゃないでしょうか。）

(3) 「H0が成り立っているのに偶然、kが138回以上になる確率」を計算して、これがもし5%より小さいなら「危険率5%でH0は棄却し、H1」が結論。また、もし5%より大きいなら「危険率5%でH0は棄却できない（何も言えない）」が結論、とやれというのが出題者の意図なのだろうと思う。

でもこれはおかしな話で、H0が棄却されたからってH1を結論にする理由はない。H0を棄却した場合に言えるのは「H0ではない」ってことだけです。
　そこで正しく（すなわち、勝手な「対立仮説」なんてものを持ち出すことなく）やるには、
　　H2: p≦1/6
という帰無仮説を検定する必要がある。どうやって検定するかというと、「H2が正しいとき、たまたま最もpが大きかった場合（つまりp=1/6の場合）ですら、kが138回以上になる確率は5%以下になるかどうか」を調べるんです。
　なので計算のやり方は、結局「意図」の話と全く同じで、kが138回以上になる確率」を計算する。ただしここからが微妙に違っていて、もし計算結果が5%以下なら「危険率5%以下でH2は棄却。だから（H2の否定である）p＞1/6」が結論。また、もし5%より大きいなら「危険率5%以下でH2は棄却できない（何も言えない）」が結論。（これを「片側検定」と呼ぶ。）
　ここで(2)とは違って、すなわち「危険率5%」じゃなくて「危険率5%以下」という表現になるのは、「たまたま最もpが大きかった場合ですら5%なんで、pが最大ではない場合には、もっと小さな危険率になるはず」ということを意味しています。

統計的検定法について

No.2 です。

No.3です。

３の目とそれ以外という二値モデルで考えています。

サイコロは、正常に作られたものであれば

(1) 事象Xが確率pで生じるような独立試行をn回やった場合に、事象Xがちょうどk回生じる確率は二項分布

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング