![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?e8efa67)
No.4ベストアンサー
- 回答日時:
こんにちは。
いくつかお聞きしたいことがあります。> このデータが正しいかどうかを検証したいのですが、20万件全部に目を通すわけにはいきません。
問題は「このデータが正しいかどうか」という箇所ですが,何をもって正しいとするのでしょうか? 20万件データは「事実のデータ」なわけですから,その意味では既に「(20万人にとっては)正しい」ということになります。
あるいは,20万件を調べることは難しいので,そこから一部を標本抽出して,その標本データで20万件データを代用することが「正しい」と言えるかどうか,ということをお知りになりたいのでしょうか?
あるいは……
このように,質問文からは「何をもって正しいとするか」が疑問です。どのような問題設定を行っているかによって,回答が異なってきています。
ひとまず,「20万件データの代わりに,抽出した標本でデータを代用したい」という問題であると解釈して,話を進めます。
母集団には,無限母集団と有限母集団の二種類二分けられ,今回の「20万人データ」は有限母集団となります。
無限母集団から10人を抽出する場合と,1000人の有限母集団から10人を抽出する場合,15人有限母集団から10人を抽出する場合とでは,同じ10人であっても,情報の大きさが全く違ってきます。この辺の「情報量の大きさ」を統計学では,次のような「修正項」を設けて表現しています。
有限母集団における修正項:√[(N-n)/(N-1)]
※N…有限母集団の人数,n…標本の人数
1000人有限母集団中の10人であれば
√[(1000-10)/(1000-1)]=0.99549
15人有限母集団中の10人であれば
√[(15-10)/(15-1)] =0.59761
10人有限母集団中の10人であれば
√[(10-10)/(10-1)] =0
さて,このような修正項ですが,何に対する修正項かと言いますと,「推測における誤差」における修正です。
推測統計学の特徴は,「本来は大量なデータの特徴を調べたいが,全部調べるのは難しいので,抽出した小数データで代用して推測する」というものです。代用・推測であるために,どうしても誤差が生じてしまいます。この誤差の情報は,「★★の平均値は120.5である。正確には,誤差はプラスマイナス3のため,95%の確率で,117.5~123.5の間に平均値が存在する」などのように使われます。
誤差は当然小さければ小さいほど良いわけですので,調査を行うときには,誤差をなるべく少なくしようとします。
有限集団の誤差:無限母集団の誤差×修正項
有限母集団の誤差は,修正項の計算式からも分かるように,データの人数に大きく左右されます。標本人数が,有限母集団の人数に対して,大きければ多いほど誤差は小さくなります(有限母集団10人,標本10人ならば,誤差項は0となります。これは10人の母集団の特徴を推測するために,10人データ全てを使っているので,推測ではなく,そのものをはかっているわけですの,当然ですね)。
さて,標本におけるサンプル数の決定法ですが,ようするに,上記の修正項を使うことになります(他にもサンプルの決定法はありますが,ここでは比較的簡単な者を説明しています)。参考urlは,比率の場合のサンプル数決定法が書かれています。式を一見しただけでは,どこに修正項があるかわからないでしょうが,式変形を繰り返していますので,わかりにくくなっています。
平均値の場合は,以下の式がベースとなります。
平均値における無限母集団の誤差計算式×修正項
=Z(α/2)×標本標準偏差/√標本人数×修正項
この数値を「許容できる誤差数値」以内におさまるようなnを設定すればよいわけです。
参考URL:http://www.wound-treatment.jp/next/wound225.htm
ご丁寧に説明どうもありがとうございます。
参考URLも見てみましたが、統計って結構いい加減なものなのかもしれませんね^^;
あいまいな質問ですみません。そんなに大層なものと思っていなかったので。
No.5
- 回答日時:
トリビアに出てくるようなのは、2000件と言われますがこれは今回のようなケースには適用できません。
これは、アンケートのような2%程度の誤差を許容できる場合の件数です。
例えば、10万人に一人という特異体質があったとします。
こういう体質の人がどれぐらいいるかというのを調べるのに、2000人をサンプリングして調べても、
一人もいなかったから、そんな人はいません!って言っても意味がないですよね。
また、統計的にということであれば、「証明」というよりも「推定」が正しい表現になります。
今回は、20万件全てに間違いがないという事を証明するんですよね。
その場合、「証明」という事であればサンプリングで証明を行う事はできないというのが回答になってしまいます。
なるほどちょっと質問の仕方が悪かったですね。
間違ってるデータが何%くらいあるかというのを調べたかったのですが、1件あたりの確認に時間がかかるものでして。
![](http://oshiete.xgoo.jp/images/v2/common/profile/M/noimageicon_setting_11.png?e8efa67)
No.3
- 回答日時:
5パーセント調査でも、95パーセント以上正なら、残りのばらつきが公平、平均なら、
既に正の方が多いと計算出来るのでは?
80パーセントでも2割調べればほぼ確定でしょう。
70パーセントなら3割調べればほぼ確定でしょう。
これ以上はちょっと。(全部ちょー適当^^;)
もちろん、正しいと言う質問ですので、全て調査して、全て間違い無かった。
と報告すべき。
No.2
- 回答日時:
統計学の基本として、参考URLはいかがでしょう。
ご質問の件については参考URLから「無相関検定」のあたりを調べて見ては。
参考URL:http://kogolab.jp/elearn/icecream/index.html
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(セキュリティ) eKYC(Povo、メルカリ、ヤフオクなど)に重大なリスクが含まれていませんか?大丈夫でしょうか? 2 2023/02/04 17:40
- 投資・株式の税金 株式の売却時における税金について教えてください。 8 2023/05/15 17:53
- 家賃・住宅ローン 金消契約の予約時に必要な完済証明を出した後 1 2022/07/07 14:39
- その他(教育・科学・学問) 大学教員採用選考について 3 2022/10/01 15:40
- その他(教育・科学・学問) 英文校正についての質問 1 2022/06/14 14:58
- 数学 どっちと思いますか 4 2022/10/10 11:16
- 派遣社員・契約社員 マージン(派遣仲介)料を頂いた時の証明書類 2 2023/01/13 14:16
- その他(法律) オーナーと顧問税理士に、私個人の税金を勝手に脱税して申告されていました 2 2023/08/02 16:23
- その他(保険) シャープと共同開発した「BCG高性能JH-WB182Eの保証書」に関しての疑義 3 2023/05/22 15:01
- 中東 ドバイに入国する際には、ワクチン必須でしょうか? 1 2022/11/08 20:21
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
統計学-母集団が少ない場合の...
-
何%くらい調べたら正当性がお...
-
評価者により採点に差が出るこ...
-
エクセルで「集団から最大値、...
-
標準偏差
-
1〜6の目が等しい確率で出るサ...
-
標準偏差バーをグラフに入れた...
-
相対標準偏差についてですが…
-
正規分布に従わないと標準偏差...
-
偏差値60の人と偏差値50の人が...
-
2つの正規分布を合成したらど...
-
(1)で分散を求める時、解答では...
-
偏差値から順位を求めるには
-
社会人の偏差値の調べ方
-
統計学でいうRSD%とは何ですか。
-
幾何標準偏差の求め方
-
パーセンテージのバラツキを表...
-
エラーバーの書き込み方
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
評価者により採点に差が出るこ...
-
t検定のt値について
-
統計学-母集団が少ない場合の...
-
仮説検定
-
有意差があってもサンプルサイ...
-
多数決 統計学に詳しい方教え...
-
エクセルで「集団から最大値、...
-
サンプルサイズで悩んでいます
-
行列の行と列に対称性がないり...
-
分布からみた 標準偏差、標準...
-
試行回数と誤差の関係
-
数量化3類について
-
「中心極限定理でサンプリング...
-
t検定って何ですか
-
統計学の検出力の問題が分から...
-
内閣支持率に差があるか、の検...
-
Zスコアと標準偏差について
-
モーメント法による母集団の偏...
おすすめ情報