
「2つのグループの標本数をそれぞれm,n,比率をp1,p2としたとき,帰無仮説H0: p1 = p2に対して検定統計量,
z=(p1ーp2)/SQRT(p×(1-p)×(1/m+1/n))
が標準正規分布に従う」
http://www.aoni.waseda.jp/abek/document/chi-test …
とされていますが、その根拠は何でしょうか。どのような論理展開でこれが導かれているのか、どなたか教えていただけませんでしょうか。よろしくお願いします。
No.2ベストアンサー
- 回答日時:
統計学は大学時代に少し習ったきりで, 検索して思い出しながらの回答なので, 間違いもあるかもしれませんが, ご了承ください.
以下では, 平均 μ, 分散 σ の正規分布を N(μ,σ) と表すことにします.
まず, そのサイトの誤りと思われる点について一点指摘しておきたいのですが,
"比率をp1,p2としたとき,帰無仮説H0: p1 = p2に対して"という書き方はおかしいように思います.
ここでいうp1, p2というのはあくまで標本における比率のはずですが (母集団における比率がわかっていたら検定なんて必要ない),
帰無仮説は「母集団の比率が等しい」というものでなければならないので, 「p1 = p2」が帰無仮説というのは変です.
そこで, 以下では母集団における比率をそれぞれ p'1, p'2 と書くことにします.
すると帰無仮説は p'1 = p'2 となります.
このとき, 標本数 m における比率 p1 は, 確率変数であって, 正規分布 N(p'1, p'1(1-p'1)/m) に近似的に従います.
(※これは「二項分布が正規分布で近似できる」といった事実等からわかります. ただし厳密には mp'1 や m(1-p'1) が小さいとこういうことはできません (両方5以上ならよいとされています).)
同様に, p2 は 正規分布 N(p'2, p'2(1-p'2)/n) に近似的に従います.
ここで, 「正規分布の差の分布はやはり正規分布になる. 平均の差が新たな平均となり, 分散の和が新たな分散となる」という事実を用いれば,
p1-p2 は正規分布 N(p'1-p'2, p'1(1-p'1)/m+p'2(1-p'2)/n) に (近似的に) 従います.
さて, 帰無仮説は p'1 = p'2 でしたから, これを仮定し, p'1 = p'2 = p' とおいてみましょう. すると,
p1-p2 は正規分布 N(0, p'(1-p')(1/m+1/n)) に (近似的に) 従うことになります.
しかし, p' の値はわかりませんから, p' を最尤推定値である p=(p1m+p2n)/(m+n) で置き換えてしまうことにします.
(大雑把にいうなら, ふたつの標本が同じ母集団から取り出したものだと仮定すれば, 母集団における比率は加重平均によって推定するのが自然ということです.)
そうすると, p1-p2 は正規分布 N(0, p(1-p)(1/m+1/n)) に (近似的に) 従います.
これは, z=(p1-p2)/√(p(1-p)(1/m+1/n)) が標準正規分布 N(0,1) に (近似的に) 従うということと同じです (正規分布の正規化).
参考: http://www012.upp.so-net.ne.jp/doi/sas/simulatio …
No.1
- 回答日時:
「検定」や「帰無仮説」の意味を、きちんと理解されていないのでは?
>その根拠は何でしょうか。
根拠も何も、「ランダム事象は正規分布に従う」というだけのことです。これは「経験的な事実」ということであって、論理的には証明できません。
お示しの式が複雑なのは、単に「標準正規分布」(平均値が「0」、標準偏差が「1」)となるようにしているためです。
「標準正規分布」にするための「標本数m,n のデータの加重平均 p に基づく標準偏差」が分母と考えればよいのです。
↓ 下記の「統計的な意味」の部分を参照ください。
https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F …
「標準正規分布」ではなく、ただの「正規分布」という用語でよければ、「検定統計量(p1ーp2)は正規分布に従うことを利用して」といっているわけです。母集団がどのような統計的特性を持っているか不明な場合でも、無作為に有限個取り出した複数のサンプルデータ間の差は、母集団の特性に依存しない「ランダム」なものになるはずですので。
この検定では、「検定統計量(p1ーp2)は正規分布に従う」ので、「2σの範囲内に95.4%が入る」「3σの範囲内に99.7%が入る」ということを利用して、実際の「z」の平均値(=0)からの差で、検定しようとする仮説(ここでは「両者の比率p1 と p2は等しい」)が統計的に妥当かどうかを判断するのです。
「検定」そのものが「正規分布」の特性を利用しているものなので、ご質問に示した文章は単にそれをいっているだけのことです。
「検定」を、単に「手続き」とか「実施のしかた」で学ぶのではなく、どんな仕組みで何をしているのか、という「意味するところ」を理解すれば、その辺が理解できると思います。
普通のテキストには、ちゃんとそういった統計的な意味が載っていると思いますよ。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
評価者により採点に差が出るこ...
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
エクセルで「集団から最大値、...
-
t検定のt値について
-
正規分布に従わないと標準偏差...
-
統計学における有効数字につい...
-
標準偏差
-
統計学でいうRSD%とは何ですか。
-
幾何標準偏差の求め方
-
平均値と中庸値の違い
-
標準偏差値が合わない
-
標本化周波数の図示
-
工程能力のN数補正について
-
この問題の右ページの分散を求...
-
小さければ小さい程高い偏差値
-
生徒の成績評価方法
-
なぜ共分散はSxyで表すのですか...
-
95%信頼区間でσ / √nのσが1.9...
-
テスト問題の項目分析の弁別指...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
評価者により採点に差が出るこ...
-
統計学-母集団が少ない場合の...
-
N数?n数?サンプル数の「エヌ...
-
エクセルで「集団から最大値、...
-
有意差があってもサンプルサイ...
-
行列の行と列に対称性がないり...
-
信頼区間から標準偏差の求め方
-
多数決 統計学に詳しい方教え...
-
偏差値の母集団の大きさは
-
t検定のt値について
-
【統計学の問題】サイコロの出...
-
モデルのパラメータの定義がい...
-
Zスコアと標準偏差について
-
内閣支持率に差があるか、の検...
-
統計解析についての質問です。
-
何%くらい調べたら正当性がお...
-
大至急お願いします! 統計学の...
-
アンケート調査に必要なサンプル数
-
母集団と確率空間の違い
おすすめ情報