母比率の信頼区間について

Question

母比率の信頼区間の導出について疑問があります。

https://bellcurve.jp/statistics/course/9122.html
上記のHPに記載されている導出は、途中までは理解できました。
ただ、母比率pと標本比率p＾（ハット）が含まれた式に対して、
「ここで、p＾（ハット）はpの一致推定量であり、nが大きい時にはほぼpに一致すると考えられることから、【数式(略)】のpをp＾（ハット）で置き換えます。」
とあります。

この置き換えは、母比率pを挟む不等号の左右の式にのみ適用しています。
それが許される理由がよく分かりません。
そもそも、p=p＾（ハット）とするなら、その少し前の導出で、
統計量Zの分子はp＾（ハット）ー pなのだから、
0になってしまうのではないでしょうか。

この導出について、教えて頂けますと幸いです。
よろしくお願いします。

yhr2 · Accepted Answer

厳密に数学的な話ではなく、実際上の「近似」ということかと思います。

「母比率p」は未知なので、一時的な「点推定値」としては「標本比率p^（ハット）」ということになります。
そして、繰り返し同様のサンプルを採ってきたときに、そのうちある確率（信頼度）で「標本比率」が入る範囲と推定される範囲が「信頼区間」です。
これは「点推定値：標本比率p^（ハット）」の回りに分布します。

そのときの分布のしかたは、「母比率p」の二項分布であり、回数が多ければ「正規分布で近似できる」ということを使って「範囲」を推定しています。
ところが、その中には道である「母比率p」が含まれます。

これでは厳密な「範囲 = 分散、標準偏差」を確定することができないので、「点推定値」としての「標本比率p^（ハット）」で代用して概算しよう、ということだと思います。

＞統計量Zの分子はp＾（ハット）ー pなのだから、
0になってしまうのではないでしょうか。

0 になるのは「点推定値」の方で、「範囲 = 分散、標準偏差」の方は 0 にはなりません。

qas2021 · Answer

No.4です。

訂正
分母をnで割るのを忘れていました。

(p^ - p)/√(p(1 - p)/n)
と
(p^ - p)/√(p^ (1 - p^)/n)
との違いは比で表すと
√(p^ (1 - p^)/(p(1 - p)))
の違いしかありません。

qas2021 · Answer

そのサイトに記載されているとおり、p^ は p の一致推定量であり、nが大きい時にはほぼ p に一致すると考えられることから、置き換えが可能なのです。

(p^ - p)/√(p(1 - p))
と
(p^ - p)/√(p^ (1 - p^))
との違いは比で表すと
√(p^ (1 - p^)/(p(1 - p)))
の違いしかありません。

n を大きくすれば、
√(p^ (1 - p^)/(p(1 - p)))
はいくらでも1に近づけることができます。
（ただし、0 < p < 1）

したがって、n が十分に大きければ、どちらを使っても同じような信頼区間が得られます。

yhr2 · Answer

No.1 です。

kamiyasiro さん、補足ありがとうございます。
R では、そんなにいろいろな「信頼区間」が表示されるのですか。

質問者さんが示されたサイトは、私も回答の補足によく利用させてもらっている、「分かりにくい統計」を比較的「分かりやすく」説明しているサイトなのですが、このページだけはちょっと「分かりづらい」ですね。

初めから「標本比率 p^」を使って「母比率」を点推定して、その「母比率の推定値 p^」を使って「母分散の推定値」（この場合には「母集団から採ってきた同じサイズ n の標本比率の分散」の推定値）を決め、それらを使って「複数のサンプルを採ってきたときの標本比率 p' のばらつきを推定する」（式も最初から p^ を使って立式する）とした方が分かりやすそうな気がします。

そうすれば質問者さんのような疑問もわかないし。

kamiyasiro · Answer

近似だからです。
そのサイトには１種類しか書いてありませんが、統計ソフトRでは、実に11種類もの信頼区間の結果が表示されます。

そもそも、母比率は離散値です。
なので、次の問題だって、信頼限界の下限は0個1個2個・・・しか取り得ないはずなので本来は0.005刻みです。
しかし、そうなっていないのは連続分布で置き換えて計算しているってことが分かります。

［事例］
ある製品を200個取り出して検査した。9個が不良品であった。
不良率を95%の信頼区間で求めよ。

__________method_x___n_______mean______lower______upper
1__agresti-coull_9_200_0.04500000_0.02266280_0.08448644
2_____asymptotic_9_200_0.04500000_0.01626964_0.07373036
3__________bayes_9_200_0.04726368_0.02018929_0.07699954
4________cloglog_9_200_0.04500000_0.02214774_0.08013238
5__________exact_9_200_0.04500000_0.02078042_0.08370269
6__________logit_9_200_0.04500000_0.02357789_0.08420700
7_________probit_9_200_0.04500000_0.02283109_0.08191690
8________profile_9_200_0.04500000_0.02188325_0.07965832
9____________lrt_9_200_0.04500000_0.02189920_0.07965670
10_____prop.test_9_200_0.04500000_0.02211792_0.08644710
11________wilson_9_200_0.04500000_0.02385254_0.08329670

等幅フォントで見て下さい。

母比率の信頼区間について

厳密に数学的な話ではなく、実際上の「近似」ということかと思います。

No.4です。

そのサイトに記載されているとおり、p^ は p の一致推定量であり、nが大きい時にはほぼ p に一致すると考えられることから、置き換えが可能なのです。

No.1 です。

近似だからです。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング