
No.4ベストアンサー
- 回答日時:
こんにちは。
いくつかお聞きしたいことがあります。> このデータが正しいかどうかを検証したいのですが、20万件全部に目を通すわけにはいきません。
問題は「このデータが正しいかどうか」という箇所ですが,何をもって正しいとするのでしょうか? 20万件データは「事実のデータ」なわけですから,その意味では既に「(20万人にとっては)正しい」ということになります。
あるいは,20万件を調べることは難しいので,そこから一部を標本抽出して,その標本データで20万件データを代用することが「正しい」と言えるかどうか,ということをお知りになりたいのでしょうか?
あるいは……
このように,質問文からは「何をもって正しいとするか」が疑問です。どのような問題設定を行っているかによって,回答が異なってきています。
ひとまず,「20万件データの代わりに,抽出した標本でデータを代用したい」という問題であると解釈して,話を進めます。
母集団には,無限母集団と有限母集団の二種類二分けられ,今回の「20万人データ」は有限母集団となります。
無限母集団から10人を抽出する場合と,1000人の有限母集団から10人を抽出する場合,15人有限母集団から10人を抽出する場合とでは,同じ10人であっても,情報の大きさが全く違ってきます。この辺の「情報量の大きさ」を統計学では,次のような「修正項」を設けて表現しています。
有限母集団における修正項:√[(N-n)/(N-1)]
※N…有限母集団の人数,n…標本の人数
1000人有限母集団中の10人であれば
√[(1000-10)/(1000-1)]=0.99549
15人有限母集団中の10人であれば
√[(15-10)/(15-1)] =0.59761
10人有限母集団中の10人であれば
√[(10-10)/(10-1)] =0
さて,このような修正項ですが,何に対する修正項かと言いますと,「推測における誤差」における修正です。
推測統計学の特徴は,「本来は大量なデータの特徴を調べたいが,全部調べるのは難しいので,抽出した小数データで代用して推測する」というものです。代用・推測であるために,どうしても誤差が生じてしまいます。この誤差の情報は,「★★の平均値は120.5である。正確には,誤差はプラスマイナス3のため,95%の確率で,117.5~123.5の間に平均値が存在する」などのように使われます。
誤差は当然小さければ小さいほど良いわけですので,調査を行うときには,誤差をなるべく少なくしようとします。
有限集団の誤差:無限母集団の誤差×修正項
有限母集団の誤差は,修正項の計算式からも分かるように,データの人数に大きく左右されます。標本人数が,有限母集団の人数に対して,大きければ多いほど誤差は小さくなります(有限母集団10人,標本10人ならば,誤差項は0となります。これは10人の母集団の特徴を推測するために,10人データ全てを使っているので,推測ではなく,そのものをはかっているわけですの,当然ですね)。
さて,標本におけるサンプル数の決定法ですが,ようするに,上記の修正項を使うことになります(他にもサンプルの決定法はありますが,ここでは比較的簡単な者を説明しています)。参考urlは,比率の場合のサンプル数決定法が書かれています。式を一見しただけでは,どこに修正項があるかわからないでしょうが,式変形を繰り返していますので,わかりにくくなっています。
平均値の場合は,以下の式がベースとなります。
平均値における無限母集団の誤差計算式×修正項
=Z(α/2)×標本標準偏差/√標本人数×修正項
この数値を「許容できる誤差数値」以内におさまるようなnを設定すればよいわけです。
参考URL:http://www.wound-treatment.jp/next/wound225.htm
この回答へのお礼
お礼日時:2005/08/12 09:55
ご丁寧に説明どうもありがとうございます。
参考URLも見てみましたが、統計って結構いい加減なものなのかもしれませんね^^;
あいまいな質問ですみません。そんなに大層なものと思っていなかったので。
No.5
- 回答日時:
トリビアに出てくるようなのは、2000件と言われますがこれは今回のようなケースには適用できません。
これは、アンケートのような2%程度の誤差を許容できる場合の件数です。
例えば、10万人に一人という特異体質があったとします。
こういう体質の人がどれぐらいいるかというのを調べるのに、2000人をサンプリングして調べても、
一人もいなかったから、そんな人はいません!って言っても意味がないですよね。
また、統計的にということであれば、「証明」というよりも「推定」が正しい表現になります。
今回は、20万件全てに間違いがないという事を証明するんですよね。
その場合、「証明」という事であればサンプリングで証明を行う事はできないというのが回答になってしまいます。
この回答へのお礼
お礼日時:2005/08/12 09:59
なるほどちょっと質問の仕方が悪かったですね。
間違ってるデータが何%くらいあるかというのを調べたかったのですが、1件あたりの確認に時間がかかるものでして。

No.3
- 回答日時:
5パーセント調査でも、95パーセント以上正なら、残りのばらつきが公平、平均なら、
既に正の方が多いと計算出来るのでは?
80パーセントでも2割調べればほぼ確定でしょう。
70パーセントなら3割調べればほぼ確定でしょう。
これ以上はちょっと。(全部ちょー適当^^;)
もちろん、正しいと言う質問ですので、全て調査して、全て間違い無かった。
と報告すべき。
No.2
- 回答日時:
統計学の基本として、参考URLはいかがでしょう。
ご質問の件については参考URLから「無相関検定」のあたりを調べて見ては。
参考URL:http://kogolab.jp/elearn/icecream/index.html
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
N数?n数?サンプル数の「エヌ...
-
評価者により採点に差が出るこ...
-
信頼区間から標準偏差の求め方
-
標準偏差
-
統計学でいうRSD%とは何ですか。
-
Excelで近似式の標準偏差を算出...
-
正規分布に従わないと標準偏差...
-
幾何標準偏差の求め方
-
20代男子で身長162cmって全体の...
-
工程能力のN数補正について
-
標準偏差バーをグラフに入れた...
-
統計学 標準偏差 マイナス範...
-
範囲から標準偏差を推定する方法
-
方言周圏論のABA分布について
-
気象現象の極値の統計の問題
-
偏差値の求め方(逆の場合)
-
3教科の偏差値の出し方について...
-
パーセンテージのバラツキを表...
-
全統高2模試で数学が200点満点...
-
場合の数
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
評価者により採点に差が出るこ...
-
t検定のt値について
-
有意差があってもサンプルサイ...
-
エクセルで「集団から最大値、...
-
多数決 統計学に詳しい方教え...
-
統計学-母集団が少ない場合の...
-
試行回数と誤差の関係
-
比率の差の検定について
-
モデルのパラメータの定義がい...
-
人口推計の信頼区間について
-
出口調査と結果分析(数学的根拠)
-
何%くらい調べたら正当性がお...
-
統計 基準値の標準偏差はなぜ1か
-
適正なサンプル数について
-
【統計学の問題】サイコロの出...
-
信頼区間から標準偏差の求め方
-
大至急お願いします! 統計学の...
-
基本的な質問ですが
おすすめ情報