アプリ版:「スタンプのみでお礼する」機能のリリースについて

統計学における無作為抽出に関する質問です.

有限母集団から全ての個体を抽出すること,すなわち全数調査は,無作為抽出の一種と見なして良いのでしょうか?私は,良いと考えます.

無作為抽出が満たすべき条件は,全ての個体に抽出される機会を均等に与え,母集団の性質を標本にできるだけ反映させることだと思います.全数調査は,この条件を満たしています.標本が母集団そのものになりますから,標本は「できるだけ」どころか「完全に」母集団の性質を反映しています.

例えば,「日本中から無作為に1000人を抽出した」と言った表現があります.これが無作為抽出であるならば,1億人の有限母集団から2000人を選んでも,100万人を選んでも,9999万9999人を選んでも,無作為抽出のはずです.抽出される人数がある値を超えた途端,無作為抽出でなくなるとは思えません.仮にそういう値があるなら,私にはたいへん興味深いことです.無作為抽出になるかならないかの,境の値はいくつでしょう?

9999万9999までは無作為抽出だが(実行されるか否かは別として),1億になった途端,無作為抽出でなくなるのでしょうか?この場合,9999万9999と1億の間には,質的な違いがあります.つまり,前者の場合は,ある個体が抽出される確率は,完全に1ではないのに対し,後者の場合は,全ての個体が確実に,100%の確率で抽出される,という違いです.もし全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?

A 回答 (6件)

全数調査が無作為なのか否かという問題にマジメに取り組むと、数学の問題ではなくなってしまうので、ここでは違う角度からこの問題を考えてみることにします。



おそらくですが、質問の意図は、ランダムでないものに無作為という言葉を使ってよいのか、ということなのだと思います。この回答は私はyesだと思います。質問者様が例に挙げているように、9999万9999個の無作為抽出があったとして、1億個の無作為抽出もあって然るべきと私も思います。

で、例えばの話ですが、2本のアタリくじと8本のハズレくじ合わせて10本のくじがあり、10人の人が順にこのくじを引いていくとします。最初の9人の引いたくじのアタリくじの合計は?という問いと、最初の10人の引いたくじのアタリくじの合計は?という問いを考えてみます。最初の答えは1か2、後者の答えは2ですね。そして後者はランダム性を失い、いつでも2という答えが出ます。後者はランダムでないので、確率変数ではないとみなされるかも知れませんが、これを確率変数ではないと除外する人はないでしょう。何となれば、i番目がアタリのとき1、はずれのとき0を取る確率変数X_iを用いて、X_1+X_2+…+X_{10}とかける分けですから、たまたま定数となった分散0の確率変数とみればよいわけです。それにそもそも、X_1からX_{10}の結合分布はノンランダムではありません。標本和が一定なだけであって、つまり誰がアタリくじを引いたか、ということはランダムなはずです。

抽出の問題も同じです。サンプルが引かれる順番は、たとえば母集団1億個からの全数抽出(この言葉がゆるされるなら)には1億!(階乗)という膨大な可能性があるわけです。実現された抽出がそのうちの一通りな分けだから、これは一つのランダムなサンプリングとみなしてもよさそうでしょう(解釈の問題でもあるから、私がそう思うだけですけれどね)。得られた標本の平均とか分散とか、これらは全数調査の場合はサンプル抽出の順序にはよりません。しかし、たとえば次のような特殊な平均を考えてみたらどうでしょう?母集団サイズをNとし、1番目に得られた値をN倍、2番目をN-1倍、…、最後を1倍して、N(N-1)/2で割ります。これだってひとつの標本統計量であって、母集団平均の不偏推定量です。しかも明らかに、全数調査してもノンランダムになりませんね。いわゆる単純平均や単純標本和だけを見るならば、全数調査というのはランダムサンプリングとしての意味を失いますが、標本をどのようにみるかということまで考えれば、全数調査といえど、サンプリング(=抽出)という意味は依然として残ると考えられます。

まあこの辺り、どう理解するかは難しいところなのですけれど、確率1で起こる事象を、「確率1で起きるランダムなイベント」ということそのものは、数学的には正しいと理解する方が自然だ、ということでしょうね。日常用語と結びつけるといろいろヤヤコシイですけれども。それはランダムじゃないよ、という意見もあるでしょう。正三角形みて、二等辺三角形と言ったら、それは間違いだ!と言われるのと似ているような気もします。要は定義ありきの話で、定義をどうするか、という議論になるとそれはもはや数学の範疇ではありません。でもまあ個人的には、より普遍的に、よりシンプルに、定義はそうあるべきだと思いますけれどね。
    • good
    • 0
この回答へのお礼

御回答ありがとうございました.

おっしゃる通り,まさに定義の問題だと思います.そして,私は,全数抽出を無作為抽出と定義することは,さほど無理があるとは思えないし,そのほうがいろんなことが簡潔になって都合が良いと思っています.三角形の事例は大変興味深く,面白いと思います.ありがとうございました.

お礼日時:2010/10/10 06:11

宗教論争だねえ。



全数抽出が抽出であるべきか否か、
観念論には全く興味がないが…
抽出でないとしてしまうと、
多段抽出が無作為かどうかとか
議論が大変やりにくい。

定義は簡潔に!が数学の原則。

「0を足す」と言って
「足してないじゃん」と言われたら、
その相手との数学の話題は諦める。

この回答への補足

「0を足す」の事例はたいへん興味深く,面白い話題です.ありがとうございます.

補足日時:2010/10/10 06:05
    • good
    • 0
この回答へのお礼

御回答ありがとうございました.

私も,定義は簡潔であるべきだと思います.そのほうが,面倒くさくないからです.

お礼日時:2010/10/10 05:59

>全数調査は無作為抽出の一種と見なしての一種と見なして良いのでしょうか


みなすと、用語の意味が混乱してしまうので、それはありえません。
理由。
調査方法は、まずは全数調査と標本調査に分類されます。
そして、標本の作り方として、無作為抽出とか系統抽出とか分類します。
全数調査を無作為抽出の一種とみなしてよいなら、全数調査を系統抽出の一種と
みなしてもよいわけであり、何故全数調査と標本調査と分類したのか、わけがわからなくなります。
ですから、全数調査と標本調査は、あくまで別物。全数調査と無作為抽出を横並びで比較すること自体が反則。

>無作為抽出になるかならないかの,境の値はいくつでしょう?
無作為抽出でなく標本抽出の意味にとります。
個人の感覚ですが、全数の10~20%。 最大限に大きくみても50%。 それ以上は回収率が低い全数調査として扱う。
そうなる理由。
全数調査のほうが正確なのでそうしたいのは山々なのは自明とします。ただし、時間と費用が膨大なので、
必要精度が得られるであろうデータ数で普通はやめておきます。これが標本調査であり、
1億人の有限母集団から選ぶときに1000人ということはあっても、5000万人はあり得ません。
5000万人調査するなら、いっそのこと全数行います。高々、2倍の費用と時間しか使いません。

>1億人の有限母集団から9999万9999人を選んでも,無作為抽出のはず
理学上はそうかもしれませんが、工学上はそうではありません。
抽出というのは、全数のうち抽出する部分がわずかであるからこそ抽出する意味(工学上の意味)を持つため。
また、9999万9999人選ぼうが1億人選ぼうが、回収率100%でない場合、その2つの違いなどありません。
※抽出は、あくまで抽出であり、アンケートを配った人数のこと。
 返答の量は、回答率であらわされ、抽出率では表現されません。
※※国勢調査のように国家がやるものはとにかく、民間がやったとしたら、回収率は、
  よほど条件がよくても70% 下手すれば10%以下。
  しかも、回答しないのはランダムという保障なし。ある一定の傾向があることを否定できない。
※※※国勢調査の場合でも、回収率100%のはずないし、配り忘れ(=抽出漏れ)ゼロということはないでしょう。
  (調査期間中の引越しや海外赴任を全部追跡し、かつ期間内回収できるとは思えない。市民税を2重払いした経験ありますもん。)


このあたり、統計学は理学でなないです。工学です。だからこそ、
>1億人で、一人でも欠けたら、それは抽出
という意見には、ものすごく抵抗があります。

kgu-2さんNo.3
>「何故抽出しないといけないのか」の記述は、説明不足だと思います。あくまでも、母集団の推定
そうじゃないでしょう。「抽出する理由」というのは、全数検査ではダメな理由でないとなりません。
母集団の推定は、全数検査でも標本推定でも可能なので、抽出が必須の理由になっていません。
よって、抽出が必須の理由とは、
理由の1 商品を全部検査したら1個も売ることができなくなるので、全数検査はありえない。
理由の2 検査数が多いと金と時間がかかるので、必要精度が得られるならそれ以上手間をかけたくない。
自明すぎて説明不要だから省いているだけと思うけど。
    • good
    • 0
この回答へのお礼

御回答ありがとうございました.

理屈と現実,どちらの立場に立つかで主張は異なりますよね.そこを明確にしておかないと,混乱を招くことが分かりました.ご丁寧な解説をありがとうございました.

お礼日時:2010/10/10 06:04

 統計には、記述統計学と推計統計学があります。


記述統計学では、全数を用いますので、平均にせよ、分散にせよ、誰が計算しても同じ数値になります。100人と50人の2つの集団に差があるか、なら、全員を調査して、平均値に0.1でも差があれば「差はあり」です。『たった0.1くらいの差は』と考えるのは、現実的・社会的な価値観であって、統計学の守備範囲外です。
 しかし、全数を用いられない場合、日本人全員とかは数が多すぎるので、この場合は、抽出して計算することになります。それは、あくまでも、母集団の数値を推定するのです。

 全数利用できるのなら、抽出する必要はありません。計算結果に0.001でも差があれば、「差がある」で(統計学的な差であって、現実的・実際的に有効な差ではありません)、危険率0%で断言できす。
 現実には、1億人全員の調査は不可能です。1億人で、一人でも欠けたら、それは抽出です。その一人によって、母集団の推定が違ってくる可能性(あくまでも)を否定できないからです。全数抽出が「抽出」に当たるのかどうかの判断は、私にはどうでもいいのですが、数学的には、全数を抽出した、と表現した方が一貫性があると思います。
 統計学の教科書では、「何故抽出しないといけないのか」の記述は、説明不足だと思います。あくまでも、母集団の推定、です。全数調査が勝るのは自明であって、抽出は代替に過ぎません。

>全数調査が無作為抽出でないならば,この辺りがポイントになるのでしょうか?
全数なら、無作為も何も、誰がやっても同じになるので、無作為抽出にならないハズはないので、あり得ない話です。想像できないので、どのような事態を想定されているのか教えてください。
 調査は、全数なら誰がやっても同じ結果になるが、全数でないなら、抽出のやり方によって結果が違ってくる、だから苦労しているのでしょう。
    • good
    • 0
この回答へのお礼

御回答ありがとうございました.

>数学的には、全数を抽出した、と表現した方が一貫性があると思います。

おっしゃる通りだと思います.アドバイスをありがとうございます.

>計算結果に0.001でも差があれば、「差がある」で(統計学的な差であって、現実的・実際的に有効な差ではありません)、危険率0%で断言できす。

これも時々聞かれることがあります.「集団Aと集団Bを,それぞれ全数抽出しました.たったxxだけど,値はAのほうが大きかったです.これは,差があるといって良いのですか?」.これに対する答えは,御教授いただいた通りだと思います.たいへん分かりやすいです.ありがとうございました.

お礼日時:2010/10/10 06:20

言葉の意味としては、全数抽出も


無作為抽出の内でしょう。
そのほうが、定義の記述も、
証明上の運用も、遥かに簡潔になります。

しかし、そもそも何のために「抽出」を
しようと思ったのか、その目的を
思い出してみましょう。
全数抽出は、無作為抽出でないのではなく、
無作為抽出の内ではあるが
統計処理上の有用性が低い
のだと言えるでしょう。

境界がハッキリしないのは、この「低い」が
定義困難な主観的評価だからです。
    • good
    • 0
この回答へのお礼

御回答ありがとうございました.

御指摘いただいた通り,定義の問題だと思います.そして,おっしゃる通り,定義は簡潔なほうが,便利だと思います.

実際上は,巨大な母集団に対し,全数抽出を行おうという気は,もちろん毛頭ありません.

お礼日時:2010/10/10 06:33

詳しく知らない私が言うのもなんですが、


統計をすべて理論的に構成しなくてはいけないとなると、言葉「抽出」の定義をどうするかによって変わってくるでしょう。「1以上全数以下」としているか「全数未満」としているかによって変わってくるでしょう。(どうなっているかは知らない) 統計を現実的手法として考える場合は、まったく意味はないので、決めてあるかどうかも知らない。(決めることに価値を見出せない。)
でも境が有るとすれば、全数かそうでないかというところしか考えられないと思います。
(>と=には数学上はっきりとした違いがあります。)
    • good
    • 0
この回答へのお礼

おっしゃる通り,定義の問題だと思います.私は,全数抽出を無作為抽出とするほうが,簡潔で便利だと思います.

御回答ありがとうございました.

お礼日時:2010/10/10 06:37

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!