数学の「確率」に詳しい人がいらっしゃいましたら教えてください。

Question

数学の「確率」に詳しい人がいらっしゃいましたら教えてください。
確率とはその母集団の多い少ないに関係なく、ある程度の正確性というかデータの確実性が成立しますか？
例えば、母集団が1万人の中の確率と10人の確率でもデータの精度に変わりはありませんか？ それとも精度に差は出ますか？

この前、テレビでお酒の強い弱いの話題が触れられていました。

①たくさん飲めて顔も赤くならないタイプ（アルデヒド分解酵素とアルコール分解酵素が両者活性型） 日本人の５６％がお酒が強いこのタイプ
②少量のお酒で顔が赤くなるタイプ（アルデヒド分解酵素が不活性型でアルコール分解酵素は活性型） 日本人の４０％がお酒が弱いこのタイプ
③お酒自体が飲めない下戸タイプ（アルデヒド分解酵素とアルコール分解酵素が両失活型） 日本人の４％がお酒が強いこのタイプ

という割合になるそうです。強い:弱い:下戸という比率は日本人だと56:40:4で、この比率に男女差は全く無いそうです。

「確率」で考えた時、例えば日本人の全人口の女性で考えた時に、強い:弱い:下戸という比率＝56:40:4ということになるんだと思いますが、例えば、女子大のとあるゼミナールに属するゼミ生の女子大生10人の集団でも同じ比率（56:40:4）になる可能性が高いということですか？

また、例えば大手企業の楽天グループの正社員の日本人女性は合計しても1000人以上はいると思いますが、楽天グループの正社員の日本人女性という母集団だと同じ比率（56:40:4）になる可能性は大きいと思いますが、それぞれの部署に所属する女性社員でも同じ比率（56:40:4）になるということですか？


数学に詳しい方がいらっしゃいましたら教えてください。
お願いします。

kamiyasiro · Accepted Answer

このような医学的・疫学的な調査は、ランダム化比較試験という年齢・性別・居住地域などをランダム化して、アルデヒド分解酵素の活性度だけに着目して２群に分け（本調査では２×２群）、アルコールパッチテストを行うことで、分解酵素と「赤くなるという生体反応」の因果関係を調べています。

分解酵素の活性度の人口内訳は、血液検査などから分かるので、そこから類推して、強い:弱い:下戸という人口比率を出しています。
強い:弱い:下戸なんか、飲む量、酒の種類などツッコミどころ満載ですが、パッチテストによるものだよ、と言われれば頷けると思います。

①母集団の大きさの依存性
類推というかあくまで推定値ですが、正確な分解酵素の人口比との因果関係から求めていますので、母集団の大きさによらず、ほぼ正確ではあるのですが、飲む量、酒の種類などに左右される値でもあります。

②母集団の属性の依存性
一方、女子大生（性別）、特定の会社の社員（年齢）となると、バイアスが入りますので、調査結果をそのまま適用することはできません。

hanzo2000 · Answer

56:40:4というのは、「日本人の、ある母集団で統計を取ったらそういう結果だった」というだけのことです。

それがいつでも正しいというわけではありませんが、無作為に抽出した母集団であれば、おおよそ正しい可能性が高いということがいえます。

たとえばこの母集団が「居酒屋で深夜まで飲んでる人1000人に聞きました！」みたいなのだったら結果は変わりますよね。

そしてこの「おおよそ」は、母集団の数で変わってきます。

仮に日本人全員の統計を取ったら、その時点での正確な統計です。

女子大生10人の集団だったら、56:40:4の「4」は母集団の10分の1以下ですから、その比率（56:40:4）が10人の集団で正確に現れることはあり得ません。

楽天グループだってたとえばお酒を飲む人が採用されやすいという文化が仮にあれば、その比率と大きく違う結果になるかもしれません。逆の場合もあるかもしれません。

統計というのは、「あるとき、あるところで、ある母集団で統計を取ったらそういう結果だった」というだけです。それ以上の意味はありません。

kamiyasiro · Answer

#1です。

ご質問は、統計量が母集団に依存するか否かを問われていると思います。

「どのような母集団についての統計量（母平均とか母比率とか）か」を読みとるのは非常に重要です。それは常にバイアスが入っているからです。

「統計的な３大バイアス」というものがあります。

①サンプルセレクションバイアス（エクセル表でいうと行を抜くケース）
例えば、女性のサンプルだけ取り出せば、平均等が変わってきます。

②削除変数バイアス（同時方程式バイアス）（エクセル表でいうと列を抜くケース）
例えば、分解酵素の働きと女性の月経との間に交絡があるときに、ランダム化比較試験の際にそれを見落としているとします。（エクセル表に月経という列が無いのです。）
すると「性差なし」という結論が出てしまいますが、実は性差があったりします。（普段酒に強くても生理のときは酒に弱い、これはよく言われます）

③内生性バイアス（変数と誤差が相関を持つケース）
例えば、因子である分解酵素の活性化度と、生体反応のばらつきが相関を持ってしまうと、正しい検定ができません。検定は「因子と誤差は無相関であること」が大前提だからです。

ご質問の内容は①のサンプルセレクションバイアスに関するものかなあと思いました。

stomachman · Answer

「確率」ってのは数学の話です。現実の話とは無関係であり、「母集団」なんて概念とも無縁です。だから、このご質問はナンセンス。

一方、
　　https://oshiete.goo.ne.jp/qa/12813837.html
は「推測統計」すなわち現実のデータに基づく推定の方法の話のようなので、ならば、こちらのご質問には（読んでないけど、おそらく）意味がある。

確率は統計に応用されるけれども、だからって両者をごっちゃにしてはいけないっすよ。

数学の「確率」に詳しい人がいらっしゃいましたら教えてください。

56:40:4というのは、「日本人の、ある母集団で統計を取ったらそういう結果だった」というだけのことです。

#1です。

「確率」ってのは数学の話です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング