統計学における無作為抽出に関する質問です.
有限母集団から全ての個体を抽出すること,すなわち全数調査は,無作為抽出の一種と見なして良いのでしょうか?私は,良いと考えます.
無作為抽出が満たすべき条件は,全ての個体に抽出される機会を均等に与え,母集団の性質を標本にできるだけ反映させることだと思います.全数調査は,この条件を満たしています.標本が母集団そのものになりますから,標本は「できるだけ」どころか「完全に」母集団の性質を反映しています.
例えば,「日本中から無作為に1000人を抽出した」と言った表現があります.これが無作為抽出であるならば,1億人の有限母集団から2000人を選んでも,100万人を選んでも,9999万9999人を選んでも,無作為抽出のはずです.抽出される人数がある値を超えた途端,無作為抽出でなくなるとは思えません.仮にそういう値があるなら,私にはたいへん興味深いことです.無作為抽出になるかならないかの,境の値はいくつでしょう?
9999万9999までは無作為抽出だが(実行されるか否かは別として),1億になった途端,無作為抽出でなくなるのでしょうか?この場合,9999万9999と1億の間には,質的な違いがあります.つまり,前者の場合は,ある個体が抽出される確率は,完全に1ではないのに対し,後者の場合は,全ての個体が確実に,100%の確率で抽出される,という違いです.もし全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?
No.4ベストアンサー
- 回答日時:
全数調査が無作為なのか否かという問題にマジメに取り組むと、数学の問題ではなくなってしまうので、ここでは違う角度からこの問題を考えてみることにします。
おそらくですが、質問の意図は、ランダムでないものに無作為という言葉を使ってよいのか、ということなのだと思います。この回答は私はyesだと思います。質問者様が例に挙げているように、9999万9999個の無作為抽出があったとして、1億個の無作為抽出もあって然るべきと私も思います。
で、例えばの話ですが、2本のアタリくじと8本のハズレくじ合わせて10本のくじがあり、10人の人が順にこのくじを引いていくとします。最初の9人の引いたくじのアタリくじの合計は?という問いと、最初の10人の引いたくじのアタリくじの合計は?という問いを考えてみます。最初の答えは1か2、後者の答えは2ですね。そして後者はランダム性を失い、いつでも2という答えが出ます。後者はランダムでないので、確率変数ではないとみなされるかも知れませんが、これを確率変数ではないと除外する人はないでしょう。何となれば、i番目がアタリのとき1、はずれのとき0を取る確率変数X_iを用いて、X_1+X_2+…+X_{10}とかける分けですから、たまたま定数となった分散0の確率変数とみればよいわけです。それにそもそも、X_1からX_{10}の結合分布はノンランダムではありません。標本和が一定なだけであって、つまり誰がアタリくじを引いたか、ということはランダムなはずです。
抽出の問題も同じです。サンプルが引かれる順番は、たとえば母集団1億個からの全数抽出(この言葉がゆるされるなら)には1億!(階乗)という膨大な可能性があるわけです。実現された抽出がそのうちの一通りな分けだから、これは一つのランダムなサンプリングとみなしてもよさそうでしょう(解釈の問題でもあるから、私がそう思うだけですけれどね)。得られた標本の平均とか分散とか、これらは全数調査の場合はサンプル抽出の順序にはよりません。しかし、たとえば次のような特殊な平均を考えてみたらどうでしょう?母集団サイズをNとし、1番目に得られた値をN倍、2番目をN-1倍、…、最後を1倍して、N(N-1)/2で割ります。これだってひとつの標本統計量であって、母集団平均の不偏推定量です。しかも明らかに、全数調査してもノンランダムになりませんね。いわゆる単純平均や単純標本和だけを見るならば、全数調査というのはランダムサンプリングとしての意味を失いますが、標本をどのようにみるかということまで考えれば、全数調査といえど、サンプリング(=抽出)という意味は依然として残ると考えられます。
まあこの辺り、どう理解するかは難しいところなのですけれど、確率1で起こる事象を、「確率1で起きるランダムなイベント」ということそのものは、数学的には正しいと理解する方が自然だ、ということでしょうね。日常用語と結びつけるといろいろヤヤコシイですけれども。それはランダムじゃないよ、という意見もあるでしょう。正三角形みて、二等辺三角形と言ったら、それは間違いだ!と言われるのと似ているような気もします。要は定義ありきの話で、定義をどうするか、という議論になるとそれはもはや数学の範疇ではありません。でもまあ個人的には、より普遍的に、よりシンプルに、定義はそうあるべきだと思いますけれどね。
御回答ありがとうございました.
おっしゃる通り,まさに定義の問題だと思います.そして,私は,全数抽出を無作為抽出と定義することは,さほど無理があるとは思えないし,そのほうがいろんなことが簡潔になって都合が良いと思っています.三角形の事例は大変興味深く,面白いと思います.ありがとうございました.
No.6
- 回答日時:
宗教論争だねえ。
全数抽出が抽出であるべきか否か、
観念論には全く興味がないが…
抽出でないとしてしまうと、
多段抽出が無作為かどうかとか
議論が大変やりにくい。
定義は簡潔に!が数学の原則。
「0を足す」と言って
「足してないじゃん」と言われたら、
その相手との数学の話題は諦める。
No.5
- 回答日時:
>全数調査は無作為抽出の一種と見なしての一種と見なして良いのでしょうか
みなすと、用語の意味が混乱してしまうので、それはありえません。
理由。
調査方法は、まずは全数調査と標本調査に分類されます。
そして、標本の作り方として、無作為抽出とか系統抽出とか分類します。
全数調査を無作為抽出の一種とみなしてよいなら、全数調査を系統抽出の一種と
みなしてもよいわけであり、何故全数調査と標本調査と分類したのか、わけがわからなくなります。
ですから、全数調査と標本調査は、あくまで別物。全数調査と無作為抽出を横並びで比較すること自体が反則。
>無作為抽出になるかならないかの,境の値はいくつでしょう?
無作為抽出でなく標本抽出の意味にとります。
個人の感覚ですが、全数の10~20%。 最大限に大きくみても50%。 それ以上は回収率が低い全数調査として扱う。
そうなる理由。
全数調査のほうが正確なのでそうしたいのは山々なのは自明とします。ただし、時間と費用が膨大なので、
必要精度が得られるであろうデータ数で普通はやめておきます。これが標本調査であり、
1億人の有限母集団から選ぶときに1000人ということはあっても、5000万人はあり得ません。
5000万人調査するなら、いっそのこと全数行います。高々、2倍の費用と時間しか使いません。
>1億人の有限母集団から9999万9999人を選んでも,無作為抽出のはず
理学上はそうかもしれませんが、工学上はそうではありません。
抽出というのは、全数のうち抽出する部分がわずかであるからこそ抽出する意味(工学上の意味)を持つため。
また、9999万9999人選ぼうが1億人選ぼうが、回収率100%でない場合、その2つの違いなどありません。
※抽出は、あくまで抽出であり、アンケートを配った人数のこと。
返答の量は、回答率であらわされ、抽出率では表現されません。
※※国勢調査のように国家がやるものはとにかく、民間がやったとしたら、回収率は、
よほど条件がよくても70% 下手すれば10%以下。
しかも、回答しないのはランダムという保障なし。ある一定の傾向があることを否定できない。
※※※国勢調査の場合でも、回収率100%のはずないし、配り忘れ(=抽出漏れ)ゼロということはないでしょう。
(調査期間中の引越しや海外赴任を全部追跡し、かつ期間内回収できるとは思えない。市民税を2重払いした経験ありますもん。)
このあたり、統計学は理学でなないです。工学です。だからこそ、
>1億人で、一人でも欠けたら、それは抽出
という意見には、ものすごく抵抗があります。
kgu-2さんNo.3
>「何故抽出しないといけないのか」の記述は、説明不足だと思います。あくまでも、母集団の推定
そうじゃないでしょう。「抽出する理由」というのは、全数検査ではダメな理由でないとなりません。
母集団の推定は、全数検査でも標本推定でも可能なので、抽出が必須の理由になっていません。
よって、抽出が必須の理由とは、
理由の1 商品を全部検査したら1個も売ることができなくなるので、全数検査はありえない。
理由の2 検査数が多いと金と時間がかかるので、必要精度が得られるならそれ以上手間をかけたくない。
自明すぎて説明不要だから省いているだけと思うけど。
御回答ありがとうございました.
理屈と現実,どちらの立場に立つかで主張は異なりますよね.そこを明確にしておかないと,混乱を招くことが分かりました.ご丁寧な解説をありがとうございました.
No.3
- 回答日時:
統計には、記述統計学と推計統計学があります。
記述統計学では、全数を用いますので、平均にせよ、分散にせよ、誰が計算しても同じ数値になります。100人と50人の2つの集団に差があるか、なら、全員を調査して、平均値に0.1でも差があれば「差はあり」です。『たった0.1くらいの差は』と考えるのは、現実的・社会的な価値観であって、統計学の守備範囲外です。
しかし、全数を用いられない場合、日本人全員とかは数が多すぎるので、この場合は、抽出して計算することになります。それは、あくまでも、母集団の数値を推定するのです。
全数利用できるのなら、抽出する必要はありません。計算結果に0.001でも差があれば、「差がある」で(統計学的な差であって、現実的・実際的に有効な差ではありません)、危険率0%で断言できす。
現実には、1億人全員の調査は不可能です。1億人で、一人でも欠けたら、それは抽出です。その一人によって、母集団の推定が違ってくる可能性(あくまでも)を否定できないからです。全数抽出が「抽出」に当たるのかどうかの判断は、私にはどうでもいいのですが、数学的には、全数を抽出した、と表現した方が一貫性があると思います。
統計学の教科書では、「何故抽出しないといけないのか」の記述は、説明不足だと思います。あくまでも、母集団の推定、です。全数調査が勝るのは自明であって、抽出は代替に過ぎません。
>全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?
全数なら、無作為も何も、誰がやっても同じになるので、無作為抽出にならないハズはないので、あり得ない話です。想像できないので、どのような事態を想定されているのか教えてください。
調査は、全数なら誰がやっても同じ結果になるが、全数でないなら、抽出のやり方によって結果が違ってくる、だから苦労しているのでしょう。
御回答ありがとうございました.
>数学的には、全数を抽出した、と表現した方が一貫性があると思います。
おっしゃる通りだと思います.アドバイスをありがとうございます.
>計算結果に0.001でも差があれば、「差がある」で(統計学的な差であって、現実的・実際的に有効な差ではありません)、危険率0%で断言できす。
これも時々聞かれることがあります.「集団Aと集団Bを,それぞれ全数抽出しました.たったxxだけど,値はAのほうが大きかったです.これは,差があるといって良いのですか?」.これに対する答えは,御教授いただいた通りだと思います.たいへん分かりやすいです.ありがとうございました.
No.2
- 回答日時:
言葉の意味としては、全数抽出も
無作為抽出の内でしょう。
そのほうが、定義の記述も、
証明上の運用も、遥かに簡潔になります。
しかし、そもそも何のために「抽出」を
しようと思ったのか、その目的を
思い出してみましょう。
全数抽出は、無作為抽出でないのではなく、
無作為抽出の内ではあるが
統計処理上の有用性が低い
のだと言えるでしょう。
境界がハッキリしないのは、この「低い」が
定義困難な主観的評価だからです。
御回答ありがとうございました.
御指摘いただいた通り,定義の問題だと思います.そして,おっしゃる通り,定義は簡潔なほうが,便利だと思います.
実際上は,巨大な母集団に対し,全数抽出を行おうという気は,もちろん毛頭ありません.
No.1
- 回答日時:
詳しく知らない私が言うのもなんですが、
統計をすべて理論的に構成しなくてはいけないとなると、言葉「抽出」の定義をどうするかによって変わってくるでしょう。「1以上全数以下」としているか「全数未満」としているかによって変わってくるでしょう。(どうなっているかは知らない) 統計を現実的手法として考える場合は、まったく意味はないので、決めてあるかどうかも知らない。(決めることに価値を見出せない。)
でも境が有るとすれば、全数かそうでないかというところしか考えられないと思います。
(>と=には数学上はっきりとした違いがあります。)
おっしゃる通り,定義の問題だと思います.私は,全数抽出を無作為抽出とするほうが,簡潔で便利だと思います.
御回答ありがとうございました.
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 ある集団の平均身長を調べたい. 集団全体を母集団とし, 母集団から無作為抽出した15人の平均身長が1 1 2023/02/03 15:26
- 統計学 不偏分散について 3 2022/03/29 15:57
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 政治 選挙はランダム投票でするべきだろう。 ランダム投票とは、国民から無作為に投票者を抽出する投票制度。 4 2022/06/24 17:09
- 統計学 ある試験の受験者全員の平均点について調査したい. いま,受験者全員を母集団とし,母集団の分散が40と 2 2023/01/30 19:19
- 数学 数学の問題です。 問1: ある(人数の非常に多い)集団から無作為に6名を選んで身長を測ったところ、そ 2 2022/12/09 12:03
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 統計学 最近統計学について独学で勉強している者です。 mとnは二つの母集団から無作為抽出した際の標本のサイズ 2 2023/02/07 12:35
- 統計学 統計学の問題です。教えてください(_ _) 数万人の有権者がいる選挙区で, 無作為に400人の標本を 2 2023/02/03 15:27
- 大学・短大 大学 統計学 1 2022/09/14 11:27
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
t検定のt値について
-
統計でいう「n」は、何の略な...
-
時系列データの検定
-
N数?n数?サンプル数の「エヌ...
-
統計学-母集団が少ない場合の...
-
標準偏差
-
統計学における有効数字につい...
-
数学Bの「統計的な推測」の【復...
-
ヒトの可聴周波数は20Hz~20kHz...
-
偏差平方和なぜ2乗
-
顔面偏差値100点満点中何点ぐら...
-
相対標準偏差についてですが…
-
ランダム出力の数値をコントロ...
-
標準偏差バーをグラフに入れた...
-
推定(統計)です。有効数字の...
-
高校偏差値67ってどのくらい字...
-
統計学でいうRSD%とは何ですか。
-
中央値の求め方ってどのように...
-
吹田市に出来た大和大学は、経...
-
統計学の問題についてです。
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
N数?n数?サンプル数の「エヌ...
-
統計学-母集団が少ない場合の...
-
評価者により採点に差が出るこ...
-
t検定のt値について
-
信頼区間から標準偏差の求め方
-
適正なサンプル数について
-
標準体重の求め方
-
有意差があってもサンプルサイ...
-
統計学の検出力の問題が分から...
-
母集団と確率空間の違い
-
多数決 統計学に詳しい方教え...
-
エクセルで「集団から最大値、...
-
時系列データの検定
-
ある集団の平均身長を調べたい....
-
ある試験の受験者全員の平均点...
-
点推定と区間推定について
-
モデルのパラメータの定義がい...
-
Zスコアと標準偏差について
-
アンケート調査に必要なサンプル数
おすすめ情報