カイ二乗検定

Question

サイコロを120回投げた場合、
1~6の目の期待度数はそれぞれ20回である。
観測度数は1が25回、2が27回、3が20回、4が10回、5が13回、6が25回となった。

この時のカイ二乗値は1.25+2.45+0+5+2.45+1.25=12.4であり、自由度5(=6-1)のカイ二乗分布表より5%の確率のときの値(=11.07)と比較して、サイコロの歪みの有無を検定する。

なぜこのやり方で検定できるのでしょうか？
カイ二乗検定のhow toだけではなく、理由(なぜこのようにするのか)も教えてください！

yhr2 · Accepted Answer

当然の疑問ですよね。普通の教科書やネット上の記事を見ても、検定のやり方（How To）は書いてあっても、なぜそうするのか、それでよいのかはあまり書いてありません。ましてや「エクセルを使ってどうやるか」を見て、その通り入力して、結果を見て終わり！　という人も多いようですから。

↓ ネット上の典型的な統計教科書サイト「ハンバーガー統計」。カイ二乗検定は第３章です。
http://kogolab.chillout.jp/elearn/hamburger/

疑問を持ったら、きちんとした統計学の本なり参考書をひも解くのがよいと思います。

例えば、数式を使わずに「考え方」を理解したければ
https://www.amazon.co.jp/%E5%AE%8C%E5%85%A8%E7%8B%AC%E7%BF%92-%E7%B5%B1%E8%A8%88%E5%AD%A6%E5%85%A5%E9%96%80-%E5%B0%8F%E5%B3%B6-%E5%AF%9B%E4%B9%8B/dp/4478820090?ie=UTF8&hvadid=116731328407&hvdev=c&hvexid=&hvnetw=g&hvpone=&hvpos=1t1&hvptwo=&hvqmt=e&hvrand=5731096329243167092&ref=pd_sl_7s6maxzdbu_e&tag=googhydr-22

ある程度数学的にきちんと理解したければ
https://www.amazon.co.jp/%E3%81%BE%E3%81%9A%E3%81%AF%E3%81%93%E3%81%AE%E4%B8%80%E5%86%8A%E3%81%8B%E3%82%89-%E6%84%8F%E5%91%B3%E3%81%8C%E3%82%8F%E3%81%8B%E3%82%8B%E7%B5%B1%E8%A8%88%E5%AD%A6-BERET-SCIENCE-%E7%9F%B3%E4%BA%95/dp/4860643046/ref=pd_sim_14_8?ie=UTF8&dpID=51Tm5lCPanL&dpSrc=sims&preST=_AC_UL160_SR112%2C160_&psc=1&refRID=F3NWF1RXZZMS5EBW1DWR

一応、厳密ではない、概念的な説明だけしておきます。
　正規分布の「標準偏差」の位置付けはご存知ですね？

「正規分布」とは、平均値をピークに、左右にダラ下がりの分布で、標準偏差を「σ」として、
　　平均値± σ　の範囲に、全体のデータの 68.3% が入る
　　平均値±2σ　の範囲に、全体のデータの 95.4% が入る
　　平均値±3σ　の範囲に、全体のデータの 99.7% が入る
という特性があります。
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm

逆に「全体の○○%が入る範囲は」という言い方が、いわゆる「信頼区間○○％」ということで
　　平均値± 1.65σ　の範囲に、全体のデータの 90.0% が入る　←これが「信頼区間90％」
　　平均値± 1.96σ　の範囲に、全体のデータの 95.0% が入る　←これが「信頼区間95％」
　　平均値± 2.57σ　の範囲に、全体のデータの 99.0% が入る　←これが「信頼区間99％」
です。
　通常の検定で、「信頼度95%で有意である」とか「ｐ値<0.05 」などといっているのは、要するに「平均値± 1.96σ の範囲を外れている」という意味です。その範囲を外れていれば、「全体のデータの 95.0% が入る範囲を外れているので、明らかな相違があるとみなせる」「統計的に有意な差がある」ということですから。

カイ二乗検定も、基本はこの「正規分布」の特性に基づいています。「カイ二乗値」の計算式を見れば分かるように、母集団やサンプルから求めた平均値や標準偏差を使って計算していますよね。つまり「サンプルデータ」も「母集団から引き継いで正規分布する」とみなしています。正規分布の特性を引き継ぐときにどれだけ不確定さが付加されるか、ということに着目して「カイ二乗分布表」が作られているのです。自由度とは、サンプルの数（実際はそれからマイナス１）に相当し、標準偏差はサンプル数が多いほど小さくなるので、カイ二乗値はサンプルの数（自由度）に依存します。
　この「こうあるべき分布」（カイ二乗分布表）に対して、検定したいサンプルのカイ二乗値が「どの位置にあるか」を見て、「全体のデータの 95.0% が入る」範囲内か、範囲外かによって検定するのが「カイ二乗検定」です。

数学的に厳密に、正規分布する母集団の分散→母集団から抽出したサンプルの分散（不偏分散）、自由度との関係、それらとサンプルの「カイ二乗値」との関係がどうなるのかは、上に挙げたような統計学の教科書なり参考書を見てください。

カイ二乗検定

当然の疑問ですよね。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング