χ2検定は何を表しているのでしょうか？

Question

性別とタバコは関連（関係）しているかを調べています。


　　　　喫煙者/以前喫煙していた人/禁煙者
男性9　　　　　8　　　　　　　　　　　　5
女性18　　　　12　　　　　　　　　　　13

期待値は以下の通りです。

　　　喫煙者/以前喫煙していた人/禁煙者/合計人数
男性　　　9   　　   　　　　　 　 8       　　　　　 5     　　　　 22
期待値  9.14    　　　　　　　 6.77    　　　 6.09   

女性　　　18      　　　　　　　 12     　　　　 　13      　　　　43
期待値  17.86    　　　　　　　13.23    　　11.91

合計人    　27      　　　　　　　 20      　　　　　　 18     　　　　 65


このとき得られたχ2は
Chi-Sq =  0.002 +  0.224 +  0.196＋0.001 +  0.114 +  0.100 = 0.637

P-Value は　0.727でした。

この期待値とχ2の数値の意味を説明したいのですが何を表しているのかが分かりません。
例えば、χ2の一番数値の高い０．２２４は何を意味しているのですか？期待値は全体的に女性の方が高いのですが、これは何を意味しているのですか？

分かるか方是非教えて下さい。物凄く困ってます！

selfer · Accepted Answer

こんにちは．

χ2検定とは，期待値と実測値のズレが有意に大きなものかを統計的に調べるデータ解析法です……このような統計学をある程度勉強している人向けの説明はともかくとします．

χ2検定では質問者が述べられているように，ある変数（喫煙者）とある変数（性別）との間に統計的に有意な違いがあるかを調べるために使われます．
では，ある変数とある変数が関連がある，とはどういうことでしょうか？　以下，質問者が挙げられた「性別／喫煙」を例とします．

「性別と喫煙に関係がある」……これは，性別によって喫煙率が異なるということを意味します．
つまり

　「男性の喫煙者：男性の既喫煙者：男性の非喫煙者」
　「女性の喫煙者：女性の既喫煙者：女性の非喫煙者」

二つの比率が【異なって】いれば，性別によって喫煙率に違いがある，ということになります．
では，この比率はどうやって求めるのか……
既に期待値を算出されているのならば，わかりますね？　「もし，両者の比率が同じであるならば，それぞれの数値
はどのようになるか？」……これが期待値です．

※「9.14：6.77：6.09＝17.86：13.23：11.91」と比率が同一であることを確認して下さい．

さて，この「もし同比率であれば……」の期待値と実際の数値を比べてみましょう．この「期待値－実測値」のズレがχ2(Chi-Sq)にて個別に計算されます（ズレの具体的な計算式は手持ちの資料で確認して下さい）．
もし，このズレが全くなければ「0」となり，ズレが大きければ大きいほど数値が大きくなります．この合計値を求めることによって，全体の「性別と喫煙」との間に有意に，統計的に大きなズレがあるか（性別と喫煙の間に有意に関連があるか）を調べることができます．

χ2＝0.637というズレの大きさが，「性別による喫煙の比率に違いは【ない】」という仮定の下で何％の確率で起こりうるか（珍しい現象か）を判断します（χ2分布の表を参考にして……詳しくは統計学の教科書参照です）．結局確率P-Valueが「0.727＝72.7％」となり，

「性別と喫煙に関係が【ない】と仮定した場合で，このズレが偶然でも72.7％で発生する現象」→
「データ的には多少ズレがあるように見えるが，この程度は偶然で起きうる範囲のものである」→
「統計的には『性別と喫煙には関係【ない』」という仮定を否定する根拠がない」→
「性別と喫煙には関係ない」

と判断を下すことになります．

このようにまず全体で判断をして，結局単なる偶然で片づけられてしまいます．よって今回の場合では「χ2の一番数値の高い０．２２４は何を意味しているのですか？期待値は全体的に女性の方が高いのです」に対しては，統計的には偶然そうなっただけで，意味はなし，ということになります．
もし，全体で有意であれば，上記の疑問については，それぞれのセルで特徴的なものはどれか，男性と女性とではどの喫煙タイプで顕著に異なるかを調べる，という詳細な分析に繋がりますが……

selfer · Answer

再度登場です．
χ2検定は，あくまでも「全体のズレが有意であるかどうか」を調べるものです……
ここで注意してもらいたいのは，質問者さんが挙げられた例題のようなクロス集計表（下記のA/B×α/β/γの表）を分析する手法は，χ2検定だけではありません．代表的なものがχ2検定で，他にも分析方法はあるのです．

　　　α　β　γ
　A
　B

数ある統計法の中で，χ2検定は「全体で有意なズレか」を検討する手段であるために，ココのセルが極端なズレを見せたとしても，それが最終的に全体のズレに結びつかないので有れば，やはり偶然と処理されてしまいます．
少なくとも，χ2検定では全体でどうであったかを述べるだけで，個別のセル（例えば0.80のセル）が特徴的であるかどうか）を調べる術はありません．

このようにχ2検定は非常に狭い目的に沿った結果しか出してきませんので，データ解析者は望みの目的を検討したいのならば，ある程度，準備が必要となります．

＞例：０．２２４→０．８０の場合でも、
＞それは偶然生じた事でよいのでしょうか？
＞この場合はどのような意味があるのですか？ 

質問者さんのこのような疑問「あるセルが特徴的に見えるが，これは偶然なのかどうか」を調べたいとします．
「どのセルが特徴的か？」という疑問は調べることができます．がχ2検定では調べることはできません（あくまでも，全体のズレを調べるの目的なので）．そのために，別のデータ解析法である，残差分析を使うことによってどのセルが特徴的であるかどうかを調べることができます．

興味があるならば「残差分析」を調べてください．但しネットで検索しても，重回帰分析における残差分析の説明はありますが，クロス集計表における残差分析の説明は少なくとも私は見たことないのですが……

クロス集計表における残差分析の使用法を説明したものとして次の資料が参考になります．

内田治『すぐわかるExcelによる統計解析』東京図書

suppi- · Answer

うまく説明できないので、期待値の出し方だけ。
（自信ないですけど）

(9+18)/(22+43)*22=9.14
(9+18)/(22+43)*43=17.86
(8+12)/(22+43)*22=6.77
(8+12)/(22+43)*43=13.23
(5+13)/(22+43)*22=6.09
(5+13)/(22+43)*43=11.91

χ2検定 は何を表しているのでしょうか？

こんにちは．

この回答への補足

再度登場です．

うまく説明できないので、期待値の出し方だけ。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

χ2検定は何を表しているのでしょうか？