比率の差の検定について

Question

「2つのグループの標本数をそれぞれm，n，比率をp1，p2としたとき，帰無仮説H0: p1 = p2に対して検定統計量，
ｚ＝（p1ーp2）／SQRT(ｐ×（１－ｐ）×（１／ｍ＋１／ｎ）)
が標準正規分布に従う」
http://www.aoni.waseda.jp/abek/document/chi-test.html
とされていますが、その根拠は何でしょうか。どのような論理展開でこれが導かれているのか、どなたか教えていただけませんでしょうか。よろしくお願いします。

tumagie · Accepted Answer

統計学は大学時代に少し習ったきりで, 検索して思い出しながらの回答なので, 間違いもあるかもしれませんが, ご了承ください.

以下では, 平均 μ, 分散 σ の正規分布を N(μ,σ) と表すことにします.

まず, そのサイトの誤りと思われる点について一点指摘しておきたいのですが,
"比率をp1，p2としたとき，帰無仮説H0: p1 = p2に対して"という書き方はおかしいように思います.

ここでいうp1, p2というのはあくまで標本における比率のはずですが (母集団における比率がわかっていたら検定なんて必要ない),
帰無仮説は「母集団の比率が等しい」というものでなければならないので, 「p1 = p2」が帰無仮説というのは変です.
そこで, 以下では母集団における比率をそれぞれ p'1, p'2 と書くことにします.
すると帰無仮説は p'1 = p'2 となります.

このとき, 標本数 m における比率 p1 は, 確率変数であって, 正規分布 N(p'1, p'1(1-p'1)/m) に近似的に従います.
(※これは「二項分布が正規分布で近似できる」といった事実等からわかります. ただし厳密には mp'1 や m(1-p'1) が小さいとこういうことはできません (両方5以上ならよいとされています).)
同様に, p2 は 正規分布 N(p'2, p'2(1-p'2)/n) に近似的に従います.

ここで, 「正規分布の差の分布はやはり正規分布になる. 平均の差が新たな平均となり, 分散の和が新たな分散となる」という事実を用いれば,
p1-p2 は正規分布 N(p'1-p'2, p'1(1-p'1)/m+p'2(1-p'2)/n) に (近似的に) 従います.

さて, 帰無仮説は p'1 = p'2 でしたから, これを仮定し, p'1 = p'2 = p' とおいてみましょう. すると,
p1-p2 は正規分布  N(0, p'(1-p')(1/m+1/n)) に (近似的に) 従うことになります.
しかし, p' の値はわかりませんから, p' を最尤推定値である p=(p1m+p2n)/(m+n) で置き換えてしまうことにします.
(大雑把にいうなら, ふたつの標本が同じ母集団から取り出したものだと仮定すれば, 母集団における比率は加重平均によって推定するのが自然ということです.)
そうすると, p1-p2 は正規分布  N(0, p(1-p)(1/m+1/n)) に (近似的に) 従います.
これは, z=(p1-p2)/√(p(1-p)(1/m+1/n)) が標準正規分布 N(0,1) に (近似的に) 従うということと同じです (正規分布の正規化).

参考: http://www012.upp.so-net.ne.jp/doi/sas/simulation/sample_size2/sample_size_prop.pdf

yhr2 · Answer

「検定」や「帰無仮説」の意味を、きちんと理解されていないのでは？

＞その根拠は何でしょうか。

根拠も何も、「ランダム事象は正規分布に従う」というだけのことです。これは「経験的な事実」ということであって、論理的には証明できません。

お示しの式が複雑なのは、単に「標準正規分布」（平均値が「0」、標準偏差が「1」）となるようにしているためです。
「標準正規分布」にするための「標本数m，n のデータの加重平均 p に基づく標準偏差」が分母と考えればよいのです。
↓　下記の「統計的な意味」の部分を参照ください。
https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83

「標準正規分布」ではなく、ただの「正規分布」という用語でよければ、「検定統計量（p1ーp2）は正規分布に従うことを利用して」といっているわけです。母集団がどのような統計的特性を持っているか不明な場合でも、無作為に有限個取り出した複数のサンプルデータ間の差は、母集団の特性に依存しない「ランダム」なものになるはずですので。

この検定では、「検定統計量（p1ーp2）は正規分布に従う」ので、「2σの範囲内に95.4％が入る」「3σの範囲内に99.7％が入る」ということを利用して、実際の「z」の平均値(=0)からの差で、検定しようとする仮説（ここでは「両者の比率p1 と p2は等しい」）が統計的に妥当かどうかを判断するのです。
　「検定」そのものが「正規分布」の特性を利用しているものなので、ご質問に示した文章は単にそれをいっているだけのことです。

「検定」を、単に「手続き」とか「実施のしかた」で学ぶのではなく、どんな仕組みで何をしているのか、という「意味するところ」を理解すれば、その辺が理解できると思います。
　普通のテキストには、ちゃんとそういった統計的な意味が載っていると思いますよ。

比率の差の検定について

統計学は大学時代に少し習ったきりで, 検索して思い出しながらの回答なので, 間違いもあるかもしれませんが, ご了承ください.

「検定」や「帰無仮説」の意味を、きちんと理解されていないのでは？

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング