dポイントプレゼントキャンペーン実施中!

カイ二乗検定の「カイ二乗」について質問です。
ウィキペディアに下のような式で定義されてますが、なぜ分母を2乗したり、分子をルート(√)して、無次元の量にしないのでしょう?
教えていただければ幸いです。
どうぞよろしくお願いいたします。

「カイ二乗検定の「カイ二乗」について」の質問画像

質問者からの補足コメント

  • おふたかた、ご回答をどうもありがとうございました。
    僕の方の返信が遅れてしまい、申し訳ありませんでした。
    kamiyasiro さんのご回答は僕には難解で、勉強してからもう少し掘り下げたかったのですが、結局勉強の時間を取れませんでした。
    将来の課題とします。

      補足日時:2022/03/08 01:55

A 回答 (11件中1~10件)

整理しておきます。

ご質問者の疑問はまさに正しく、実はその考えに従って導出された近似式なのです。「」は他の回答者が間違えている箇所です。

・本来のカイ2乗値の定義は、標準正規分布空間内の(原点からの距離)^2(=各軸の乖離の2乗和)。
・この時点では分母分子とも2乗されている(ご質問者のお考えどおり)。
・足し合わせているのはn個のサンプルではないから「ばらつき」ではない。観測項目p個の和。

χ^2=Σ{(x-μ)^2/σ^2}

・度数(生起数)の議論にするため、二項分布を標準正規分布に近似したいが、面倒なので、ポアソン分布(平均も分散もλ)を利用。
・基準化の式は、

(x-μ)/σ=(x-λ)/√λ

と書き直すことができる。
・これを上記の定義式に代入。

χ^2=Σ{(x-λ)^2/λ}=Σ{(ObsーExp)^2/Exp}

・そもそも分母分子が2乗されて求められた結果の式であり、この結果を見て分母で「規格化」していると解釈してはいけない。

・この近似を提案したのはピアソン。

・検定対象の原点からの距離^2が求められるので、それを距離^2分布(カイ2乗分布)と比較して検定する。

・これは近似なので場合によっては破綻する。もし期待度数0の項目があったら破綻する。
・それを指摘し解決策を示したのがフィッシャーの正確確率検定。
    • good
    • 2

ご質問者様



すみません。回答者同士でやり取りして。

私はもう60過ぎです。20代の頃はPCソフトなどはなく、電卓を叩いて計算していました。

今はPCソフトがあるから、数値を入れるだけで正しい結果が出ます。ですから、私のような失敗をすることもないですが、逆に式の意味を考えることも少なくなったと思います。

私なんか失敗してから意味を学んでいるのに、ご質問者様は、最初から式の意味に疑問を抱かれたという点で、なんと素晴らしいことかと思いました。
    • good
    • 0

#9様



この場はお互いに勉強し合う場ですし、私もyhr2さんの深い造詣に助けられることしばしばで、感謝しています。

白状しますと、私は若い頃、(観測度数ー期待度数)を期待度数で基準化してから2乗和を取るという大失態を業務でやってしまいまして、そのときに、なぜ分子だけ2乗になっているかを学んだのです。

当時は、「期待度数で規格化する」ものだとばかり思っていたのです。しかし、ピアソンが提案した近似をしっかり書いてある本を読んで、なるほどと納得した次第です。というか見事!と感激した記憶があります。

当時を振り返ると、汗顔しきりです。
    • good
    • 0

No.1&4 です。



>kamiyasiro さま

いつも、浅学者である私のシロウト的誤りに適切なコメント、修正をいただきありがとうございます。(皮肉ではなく本心です)

カイ二乗検定のやり方については、私も本質的なところ、および直感的な意味合いがつかみ切れていないところがあり、的外れな回答をして質問者さんをかえって混乱させたかもしれません。

今回も、#2、#8 に書かれた「ポアソン分布(平均も分散もλ)の基準化の式」

(x-μ)/σ=(x-λ)/√λ

を提示いただき、「なるほど」と納得しました。

誤った回答の反省をしつつも、誤った回答に対して、その回答のどこが間違っているのか、何を取り違えているのか指摘いただくことで、質問者さん、回答者双方の理解をより深めることができるものと考えています。
今後とも、よろしくご指導、ダメ出しのほどお願いいたします。
    • good
    • 0

「ピアソン」のカイ2乗検定で合っていますね。



それよりなにより、この式は本来の定義から変形されて出て来た式で、これそのものに意味を見出そうとすると、混乱しますね。

だって、本来の定義は、分母分子とも2乗していますからね。ご質問者様がご指摘されているとおりなのです。
    • good
    • 0

水掛け論になるといけないので、参考文献を挙げておきます。


私の蔵書の中から探し出したものを挙げていますので、もっと良いものがあるかもしれません。

ご質問の式が導出される背景に、ポアソン近似があるということを書いている本です。(見つけられて良かったと思うくらい、書いてある本は少なかったです)

山田秀・松浦峻(2019)「統計的データ解析の基本」,サイエンス社,p212
    • good
    • 0

#4さんの書かれている「この式で定義する」は間違いです。

ウィキに「定義」と書いているならそれも間違いで、これは「近似」なのです。

この近似は、期待度数が0漸近するときは、分母→0なので、素人が見ても破綻することが想像できます。

フィッシャーは、この点を指摘し、「フィッシャーの正確確率検定」という厳密な方法を示しています。

私が、この近似を提案したのはピアソンだと思ったのは、フィッシャーとピアソンが仲が悪かったから、勝手にそう思い込んだのかもしれません。
    • good
    • 0

No.1 です。

「お礼」に書かれたことについて。

>質問の後半、分母になぜ自乗がかからないのかがわかりません。

カイ二乗検定では、「期待度数(expected)」と「観測度数(Observed)」の差、つまり「バラツキ」が判定基準よりも大きいか小さいかを調べます。
そのための「検定統計量」を、お示しのような式で定義するということです。
(カイ二乗分布の統計量の定義式ではありません)

この「バラツキ」を均等に比較するためには、何らかの「規格化」(何を「1」とするか)が必要なわけですが、それを「期待度数」を基準としているわけです。(ここでは「期待度数」は統計変量の「最尤推定値」になっています)
比べたいのは「バラツキ度合い」つまり「分散」相当の「二乗した」ものですが、それを「規格化」するのは線形性を持った統計変量ということです。
「規格化」する基準を「二乗値」としたら「線形性」が保てませんよね?
    • good
    • 0

集団のバラツキ度合いなら、分母はnです。

ですからバラツキ度合いには相当しません。これは、集団の中のある1個のサンプルの相対位置です。
#1さんが書かれたことは間違っています。

カイ2乗値は、あるサンプル(身長、体重、胸囲等の観測値を持つ)が、空間の原点からどれだけ離れているかという指標を、標準正規分布空間に写像して距離の2乗和(ユークリッド距離の平方根を取る前)で表したものです。

カイ2乗分布は、もとの各観測値が正規分布に従っていれば、「そのサンプリングを何度も何度も繰り返したとき、全サンプルはこんな距離^2の分布になる」という分布です。空間の軸が増えれば、値は大きくなります。
    • good
    • 0

カイ2乗値の定義は、xを観測変数とすると、χ^2=Σ{(x-μ)^2/σ^2}です。



(x-μ)/σは基準化です。これは標準正規分布に変換したときのxの相対位置です。その2乗和をカイ2乗値と定義しています。
項数の分の軸があるp次元空間において、どれだけ原点から離れているかをユークリッド距離ではなく、距離の2乗値で表しています。このときは、ノンディメンジョンです。

さて、適合度の検定では、生起数が用いられます。

各項の生起/非生起は二項分布に従います。原則的にやるならば、二項分布を上記の標準正規分布で近似して、生起数の期待度数を原点としたときの、原点からの乖離を見る必要があります。しかし式が面倒になります。

二項分布は生起数が多い時はポアソン分布で近似できます。
ポアソン分布は期待値がλ、分散もλです。これを用いて基準化の式を書き換えると、(x-λ)/√λ になり、これをカイ2乗の式に代入すると、

χ^2=Σ{(x-λ)^2/λ}=Σ{(ObsーExp)^2/Exp}

ご指摘の式となります。非常にスッキリしています。たぶん、この近似はピアソンが提案した、と記憶しています。間違っていたらごめんなさい。

つまり提示された式は、生起数の期待から乖離度を見るのに、一旦ポアソン近似をしてから標準正規分布近似するという手の込んだことをやった結果であり、この式は元は無次元なのでこれも無次元であると言えるのです。そもそも計数値ですから無次元ですけどね。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!