サンプリング数の決定における許容誤差について

締切済

質問者：jon_005
質問日時：2006/12/15 22:03
回答数：2件

統計の勉強をしていたところ
http://www.wound-treatment.jp/next/wound225.htm
のようなＨＰを見つけました。

ここで許容できる誤差の範囲とあります。ここでは2.5としているようですが、
これは2.5％のことで、サンプルを母集団に戻した時に2.5％の誤差が含まれているでしょう。
といった考え方なのでしょうか？

例えば、世論調査の場合、人口が1億人とすれば
1億×2.5％＝2500000人くらい誤差を含みますってことでしょうか？

それとも、もっと細かな計算をして誤差範囲を計算するのでしょうか？

どなたか解説おねがいします。
また説明されているサイトがありましたらご紹介ください。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

最新から表示
回答順に表示

No.2

回答者： gootaroh
回答日時：2006/12/21 10:09

No.1様のご回答とかぶりますが、「サンプル数」というのはよく間違える使い方なんですよね。

サンプル（標本ともいいます）とは、母集団（この場合であれば、日本国民全員）から選ばれた人の集まりのことです。
標本として選ばれた人の数を標本の「大きさ」（サンプルサイズ）といいます。
例えば、母集団から選ばれた人の集まり（標本）が「農家だけの標本」、「サラリーマンだけの標本」の2つであれば、サンプル数は「2」となります。ちょっと意味合いが違うでしょ？

さて、ご質問の件ですが、キーワードは参照サイトでいう「許容できる誤差の範囲」2.5％と「信頼度」95％の2つです。

サンプル平均値（調査結果）と母集団平均値（実態）が「≠」では困りますが、せめて「≒」になるためには、ある程度の回収率や回答率（以下「回収率」という。）が必要です。

統計学上意味のある回収率は計算によって求められるわけですが、その際、「許容できる誤差の範囲」と「信頼度」の2つの値を自分で設定する必要があるのです。
分かりやすく「ダーツ」に例えてみますので、イメージしてください。

母集団平均値（実態）を「ダーツの的の中心」、サンプル平均値（調査結果）を「ダーツの矢」、許容できる誤差の範囲を「的の直径」、信頼度を「的への命中率」、回収率を「ダーツの腕前」、推定することを「矢を投げること」と考えてください。

矢を投げて、的の中心にピッタリ命中することは極めて少ないと思いますが、的そのものに命中させることは、的の大きさが一般的なものであれば、そう難しくはないはずです。
しかし、的が小さい場合は難易度がアップしますので、上級者でないとなかなか命中しません。

「許容できる誤差の範囲」とは、許容できる最大誤差のことです。
2.5％であれば、推定に当たって母集団平均値（実態）から±2.5%以下の誤差である、ということです。
誤差は小さければ小さいほど好ましいことは言うまでもありません。
2.5％とは、半径25センチの的だと思ってください。

「信頼度」とは「信頼係数」ともいい、「信頼度」95％とは、100回推定したら95回は「許容できる誤差の範囲」（許容誤差）の範囲内に収まる、という意味です。
要は、100回矢を投げたら95回的に当たる、ということです。この数値は当然高いほど良いわけです。
回収率は、高ければ高いほど母集団平均値（実態）に近付くので、当然高いほど良いということになります。

要するに、上級者（高回収率）の方が小さな的（小さな許容誤差）でも命中率（「信頼度」）が高いということです。
言い換えると、小さな的で命中率を高くするためには上級者でないとだめ、ということです。
逆に、初級者（低回収率）の場合、上級者と同じ大きさの的（誤差）では、上級者よりも命中率（「信頼度」）は当然落ちます。
したがって、命中率を上げようとすれば、的（誤差）を大きくすればよいのですが、その場合、たとえ的に当たっても、中心（実態）から大きく離れているかもしれない、ということです。

「許容できる誤差の範囲」は低く、「信頼度」は高く設定すれば、サンプル平均値（調査結果）は母集団平均値（実態）に近付きます。
究極は、「許容できる誤差の範囲」0％、「信頼度」100％ですが、これだと回収率100％の「全数調査」になってしまいます。
一般的には「許容できる誤差の範囲」5％、「信頼度」95％で「統計学上、十分意味あり」と言われています。

●もう少し正確に
ここまで理解していただいた上で前言を撤回するのは恐縮なのですが、実は、前述のダーツの説明は、1つだけ統計学的に不正確な点があります。それは、「許容できる誤差の範囲」（許容誤差）の「場所」です。

ダーツの説明では、「許容できる誤差の範囲」（許容誤差）を「的の直径」に例えました。
つまり、母集団平均値を中心とした誤差に何本矢が当たるかが「信頼度」であると説明しました。しかし、これは不正確なのです。

正しくは、矢の方、つまりサンプル平均値を中心に誤差を設定するのです。矢の周りに「誤差」という名前の円があるイメージです。
すなわち、矢を投げたとき、その円が的の中心を含む確率が「信頼度」なのです。

例えていうと、輪投げのようなものでしょうか。投げ輪が「調査結果」、的棒が「実態」、投げ輪の直径が「誤差」、的棒に入った率（命中率）が「「信頼度」」、腕前が「回収率」という感じです。

分かりやすくするために、あえて不正確な例え話をしたということをご了解ください。

なお、蛇足ですが、ご質問の参照サイトでは
>こういう数字のカラクリを見てしまうと，新聞紙面に踊る「小泉政権を指示する人の割合は57.2％と過半数を超えており，国民に支持されている事がわかる」なんて記事がなんだかすごく嘘っぽいのである。
・なんて結構批判的なコメントがありますが、統計学的に問題なければ大体おお外れはしませんよ。ただ、そうはいっても、私はいつも、世論調査結果の報道では、調査時期や回答者数だけではなく、設定した許容誤差と信頼度も、参考までに掲載するべきだと思っています。

- 7
- 件

通報する

No.1

回答者： backs
回答日時：2006/12/17 23:28

まず指定されたwebサイトの中では「サンプル数」という用語を用いていますが,これは間違いで正しくは「サンプルサイズ」または「標本の大きさ」です。

許容誤差というのは人口の事ではなく,例えば日本人の(男性の)平均身長が169.5cmだったとします。でも実際に日本人男性の全員の身長を計測するのは現実的に不可能ですよね。だからある一部の日本人男性を抽出(サンプリング)して母集団である日本人男性の平均身長を推定するわけです。

それで実際には全数調査をしても誤差が生じます。ここでいう誤差というのは母平均値である169.5cmと得られた標本平均値との違い(差)のことです。でも調査者としてはできるだけこの誤差を少なくしたいわけですから,標本調査をする前にあらかじめ「最低でもこのくらいの誤差にとどめたい」と設定しておくのが許容誤差です。

許容誤差の計算方法などというものはなく,調査の目的や予算などによって決めるのが普通だそうです(私は国の調査員などではないので実態は知りません)。もしこの辺りのことについて詳しく知りたければ,松井博「標本調査法入門」日本統計協会という本をお勧めします。値段も安く厚くなく,分かり安い本です。