信頼区間の求め方が分かりません

締切済

質問者：himajin12
質問日時：2008/12/10 15:34
回答数：2件

学校で出された問題ですが、全くわからないので
お願いします。

ある町の駅で乗降客400人を任意に抽出して調べたところ、
196人がその町の住人であった。乗降客中、その町の住人
の比率に関する信頼区間を信頼係数99％で推定せよ。

どう解けばいいのでしょうか、どなたかお願いします・・。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

最新から表示
回答順に表示

No.2

回答者： gootaroh
回答日時：2008/12/11 11:57

「信頼区間」とは、母集団（全体）の平均値や分散値などがあると考えられる区間のことです。

よく、95％信頼区間、99％信頼区間などといいますが、それは、母集団（全体）の値がこの区間にある確率が95％や99％であることを表しています。言い換えれば「100回サンプリングしたら、95回（99回）はこの範囲内に値が当てはまる（という確率）」といえます。

簡単に言うと、「誤差の範囲」（許容できる誤差）ということです。

今回は、400人中196人だったので、その割合は「49.0％」でしたが、これでもって、乗降客のうちのその町の住人の割合は「常に49.0％」である、と結論付けるのは危険です。全数調査ではありませんので、当然誤差が生じます。その範囲（上限と下限）はどうか、というのを数学的に算出するわけです。

算式は次のとおりです。（Excel風に表記します）

・下限値　(町民数/乗降客数)-(1.96*SQRT((町民数/乗降客数)*(1-(町民数/乗降客数))/乗降客数))

・上限値　(町民数/乗降客数)+(1.96*SQRT((町民数/乗降客数)*(1-(町民数/乗降客数))/乗降客数))

これは、信頼係数が95％の場合です。信頼係数が99％であれば、「1.96」を「2.58」に変えてください。実際の計算はご自分でどうぞ。

ちなみに、信頼係数が95％の場合は、「44.1％～53.9％」となります。つまり、100回サンプリングすれば、95回はこの「44.1％～53.9％」の範囲内に納まるはず、という意味です。

以下、厳密性には欠けますが、ダーツに例えますので、イメージしてみてください。

母集団（全体）の平均値（真の値）が「的の中心」で、標本の平均値（調査値）が「矢」だとします。そして、サンプリングを「矢を投げること」、信頼係数を「命中率」、回答率を「腕前」とします。

ではこの場合、信頼区間（誤差の範囲）は何に相当するでしょうか？そう、「的の大きさ」です。

さて、矢を投げて、的の中心に当てるのは難しいですが、的そのものに当てるのであれば、その的が一般的な大きさであれば、そんなに難しいことはないですよね。

しかし、的が小さい場合（信頼区間≒許容誤差が小さい場合）、的に当たれば、それは中心（真の値）に近いことを示しますが、命中率（信頼係数）は下がります。

この状態で命中率（信頼係数）を上げたければ、腕前（回答率）を上げるしかありません。

一方、同じ腕前（回答率）で命中率（信頼係数）を上げたければ、的を大きくすれば（信頼区間≒許容誤差を大きく取れば）よいのですが、それだと、的に当たったとしても、中心（真の値）からは遠いかもしれません（近いかもしれませんが、それは分かりません）。（ちなみに、先ほど「実際の計算はご自分でどうぞ」と言いましたが、信頼係数を95％から99％に上げるということは…？もうお分かりですね。）

ざっくり言うと、こういう関係になっているのです。イメージできましたでしょうか？

もっとも、実はあんまり正確な例えではないんですよね。というのは、信頼区間（許容誤差）の「場所」がちょっと違うのです。

「場所」とはどういうことかというと、上記のダーツの例では、信頼区間（許容誤差）を「的の大きさ」に例えました。これでは、矢を投げて（サンプリングして）、その矢（調査値）が的に当たるかどうか（信頼区間≒許容誤差の範囲内に納まるかどうか）という話になりますよね。でも、ちょっと違うのです。

本当は、誤差がある場所は「矢」（調査値）の方なのです。矢を中心に信頼区間（許容誤差）が設定され、投げると（サンプリングすると）、その許容誤差が、中心（真の値）を含むかどうか、というのが正しい理解なのです。

例え直すと、ダーツではなく、輪投げのイメージですね。つまり、輪の中心が「調査値」、輪の直径が「信頼区間（許容誤差）」、的棒が「真の値」というわけです。命中率が「信頼係数」、腕前が「回答率」であることは変わりません。

このごろ「内閣支持率が下がってきた」という世論調査をよく目にしますが、新聞等の世論調査でいつも思うのは、どの社でも信頼区間と信頼係数を載せていないということです。1ポイントや2ポイントの変化なんて許容誤差の範囲であり、前回調査における許容誤差を超えるような変化があって初めて「低下」や「上昇」といえると思います。さすがに今回は15ポイント前後下落しましたので「低下」といえると思いますが。いずれにせよ、参考値として信頼区間と信頼係数を載せればよいと思っています。（つまり、支持率は「25％」ではなく「22％～27％」という具合に。一般読者にとっても有意義です。もっとも、記事中に与えられたデータで、上記の式を使って自分で計算することもできますが、一般読者で上記の式を知っている人は少ないし、知っていても設問数が多ければ面倒、ということもあります。）

いかがでしょうか？この回答が、ご理解の一助になれば嬉しいです。頑張ってください！

- 22
- 件

通報する

No.1

回答者： incd
回答日時：2008/12/11 03:54

その講義でどのような説明の仕方がなされているか分からないので概略のみ説明します。

問題の設定から、Xを、住民ならX=1, そうでなければX=0という値を取る確率変数として、Xはパラメータpのベルヌーイ分布に従うと仮定します。

比率pを196/400で推定します（これはpについての一致推定量です）。

次に、中心極限定理を使って
n^(1/2)(196/400 - p) →d N(0, V(X))

V(X)はXの分散ですが、この値は分かっていません。
そこで、s^2 = (196/400)*(204/400)を代用します。s^2はV(X)の一致推定量です。

したがって
n^(1/2)(196/400 - p)/s →d N(0, 1)

こうして左辺の分布が求められたので、あとは
Z(0.005)≦n^(1/2)(196/400 - p)/s≦Z(0.995)
が信頼区間です。Zは標準正規分布です。