プロが教える店舗&オフィスのセキュリティ対策術

統計学の質問です。統計学については素人ですが、ただ基本的なことくらいは理解したくて質問しました。

「正規分布に従う集団から標本を10個取る」という表現で感覚的に納得がいかなかったので色々考えました。集団は離散型ですが、正規分布は連続型なので、理屈では分かっていても、連続している分布から離散的な標本を取るという表現が感覚的には納得がいかない状態です。

半整数補正というのをキーワードとしてみたのですが、それが連続型にみなした分布における離散型の確率の求め方でしょうか?

例えば、各目の出る確率が均等であるサイコロ1個を36回投げる事象について考えます。サンプル数が30以上の時には正規分布に従うと考えて良いと見たことがありますので、計算を簡単にするため36回試行するものとします。

そこで1の目が出る回数をXとすると、X~N(6,5)に従うと思います。また、離散の確率分布で考えるとX~B(36,1/6)と考えることも出来ると思います。

そこで2項分布として1の目が出る確率を計算すると、およそ0.176となります。

しかし正規分布に近似すると点の確率は0と考えるため、X=6となる確率は0となります。しかし、これでは納得がいきません。

そこで正規分布N(6,5)において、5.5≦X≦6.5で考えた場合、その確率は0.177となり非常に近いです。

用語も考え方も素人なので質問自体が滅茶苦茶だと思いますが、ご教授お願い致します。

A 回答 (6件)

#5です。



お悩みの点、分かりました。便法として用いる正規分布近似の欠点についてですね。それはおっしゃる通りです。npが大きければ正規分布近似せよ、というのは一般的に書いてありますが、適用外に触れられることはあまり無いですから、混乱を招いたのだと思います。

さて、サイコロを180回投げて1の目が40回以上出る確率について、

①普通に求めるならば、リンクを張って頂いたサイトのように、中心極限定理により正規分布近似して推定する方法が一般的です。しかし確かにすそ野のところで著しく近似が逸脱します。また、正規分布は大きくすそ野を引きますので範囲外の確率が存在してしまいます。
180回中40回というまあまあ起こり得る事象の確率であれば、すそ野の微々たる発生確率の差異は誤差範囲として無視しますが、これが工程内不良のように1・2件の発生確率を計算するときは、正規分布近似はご質問者の懸念のとおり精度が悪く用いることはできません。
このとき用いられる近似法として代表的な方法は2つあり、1つはロジスティック変換、もう1つは逆正弦変換です。いずれも非負の関数でまあまあの近似精度です。これはQC検定にも出るくらい工業界では知られた近似法です。

②次に、コメントに書いていただいた、「二項分布B(180,1/6)に従うと考えて反復試行の確率で考えます。」はあり得ません。確かに、0回、1回、2回・・・と求めてサンメイションを取れば良いのですが、40回のときの計算式は、P(40|1/6)=180C40・(1/6)^40・(5/6)^140ですよ。第1項は10の40乗と桁あふれ、第2項は10のマイナス32乗という桁落ちの計算になってしまいます。精度もクソもありません。このような母数の大きな二項分布はポアソン分布で近似します。これは有名ではありませんが、私のような工業界では普通に使っています。

ということで、
すそ野の箇所の近似として、
・ロジスティック変換
・逆正弦変換
二項分布の計算が破綻する場合の近似として、
・ポアソン分布に近似
を調べて頂ければ、離散分布を(便法として)連続分布に近似して発生確率を求める方法や、離散分布のまま計算しやすい分布に近似して発生確率を求める方法に関する疑問が払拭できると思います。

このような近似計算に加えて、二項分布はベータ分布に変換して積分計算を行うことも是非覚えておいて下さい。この場合はExactな(数学的厳密性がある)解が得られます。
    • good
    • 1
この回答へのお礼

全ての質問に詳しく回答してくれましてありがとうございます。
これで疑問点も解消されました。

やはり正規分布だと、すそ野部分がかなりズレてしまうのですね。逆正弦変換やロジスティック変換も調べてみて勉強してみたいと思います。

2項分布は正確に計算したい場合はベータ分布に変換するのですね。それも調べてみたいと思います。

お礼日時:2021/01/28 00:02

#4です。



ついでに・・・

ご質問者は、ご質問の中でサイコロの出目の分布を横軸1,2,3,4,5,6上の正規分布をお考えになられたと思いますが、そこは素人です(ごめんなさい)。

連続分布で考えるときは、6次元空間の各軸1の点を切る超平面上の面内密度になるのです。そして各軸に射影すると、各々区間0~1の確率密度曲線になります。このようにある成分の確率を取り出したものを周辺確率と呼びます。6次元超三角形の重心は各軸0.1666に射影されます。これが、ご質問者が得たい確率分布になるのです。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。そして申し訳ございません。素人が故に理解できず、納得がいかず色々聞いてしまいまして。

質問文が分かりづらいことになっていますが、ここで考えていますのは、例えば「サイコロを180回投げて1の目が40回以上出る確率」です。

https://note.com/mega8/n/ndd700766545f

もちろん普通に求めるならば、二項分布B(180,1/6)に従うと考えて反復試行の確率で考えます。ただし、40回出る確率、41回出る確率、・・・、180回出る確率と計算するとあまりに多くなるので、N(30,25)に近似して、面積を求めて確率を出しています。

ただし近似するのはよいのですが、近似した後のN(30,25)はもちろん連続分布ですが、負の値でも小数の値でも確率密度関数の値は正で確率質量を持っています。そして40回出る確率、41回出る確率、・・・、180回出る確率(面積)は全て0より、かなり混乱していたということです。

もう少し頭の中を整理してみたいと思います。ありがとうございます。

お礼日時:2021/01/26 13:28

#3です。

コメントありがとうございます。

> 多くの受験生がいる100点満点のテストで、テストの点数は平均は55で標準偏差8の正規分布に従う時、例えば40点の受験生の割合は「Norm.dist(40,55,8,False)」で求めることができるのですよね?

できません。
求めているのは確率密度の値です。
確率密度と累積分布は別物です。累積分布の微分値が確率密度です。正規分布の累積分布はS字曲線になりますが、微分ですからその曲線の接線の傾きになります。その値が小さい時は出現率が低く、傾きが急な時は出現率が高い、というように解釈します。Excelでは、連続分布の確率密度を確率質量と言い換えています。

> 確率質量の考え方からすれば、正確にはΣ[x=0,60]f(x)となると思います。数学的な質問となってしまうかもしれませんが、正規分布とみなせる場合は、∫[-∞→60]f(x)dxとΣ[x=0,60]f(x)は同じものとみなすのでしょうか?

同じとはみなさない、というのが普通です。そもそも値が違います。
確かに連続分布の時は、確率は定積分(確率密度曲線の面積)で求められます。しかし離散分布の場合の確率質量は、定義上はΣ(サンメイション)で求められ∫は使いません。ですが、足し算の刻みを細かくしていったのが積分です。そう考えると・・・。
ご質問者の類推がすごいと思うのは、同じものとみなすことが実際には行われるのです(本当に素人ですか?)。
例えば、サイコロの出目の確率分布は通常は離散です。1.5の目などの中間の値が無いからです。しかし、例として3面サイコロ(3角柱の鉛筆転がしのような)出目の確率は、直交するx軸y軸z軸の各1※の点を結んだ正三角形の内部の面内密度(濃い⇔淡いのように「連続」で)と考えることもできるのです。これをディリクレ分布と言います。同様に二項分布はベータ分布に、ポアソン分布はガンマ分布に置き換えて、連続的な関数の積分で確率を求めることが行われます。
ベイズの計算等で用いられるのですが、ご質問者の洞察のとおり、数学的操作上必要だからです。
一方、コンピュータ上では連続分布も積分ではなく足し算に置き換えて計算します。まさに相互に関連し合っています。ただし、値の換算は必要です。

※1の目ばかり出れば、確率100%だからx軸上の1の点になります。
    • good
    • 1

#2です。



ご質問者はExcelを使用されますか?

Norm.dist(x,m,s,関数形式)という関数があり、関数形式がFALSEのときは、確率密度関数の値、TRUEのときは累積分布関数の値を返すようになっていますが、最近のExcel(私のは2016)は前者を「確率質量」と表示しています。お気づきになられましたか。

つまり、ご質問者の疑問である、「たとえ連続値でも、個々の観測値は離散的ではないか、なぜそれに確率があるのか?」は、当然の発想です。そのケースは確率質量なんです。

尤度(同時確率)の計算は確率質量を使います。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。
2つの回答について同時に返信を書きたいと思います。

まず確認ですが、多くの受験生がいる100点満点のテストで、テストの点数は平均は55で標準偏差8の正規分布に従う時、例えば40点の受験生の割合は「Norm.dist(40,55,8,False)」で求めることができるのですよね?

そしてですが上のケースの場合は、例えば60点以下の受験生の割合を求める際には、平均は55で標準偏差8の正規分布の確率密度関数をf(x)としますが、多くの統計学の入門の参考書では∫[-∞→60]f(x)dxと確率密度関数の定積分で求めると思います。

ただし確率質量の考え方からすれば、正確にはΣ[x=0,60]f(x)となると思います。数学的な質問となってしまうかもしれませんが、正規分布とみなせる場合は、∫[-∞→60]f(x)dxとΣ[x=0,60]f(x)は同じものとみなすのでしょうか?

お礼日時:2021/01/26 00:12

企業で統計を推進する立場の者です。



いやいや、サイコロの目の出方は離散分布で、その場合の確率は確率密度関数の面積ではなく「確率質量」と言うのですよ。面積0でも確率を持つという概念です。

「」内の語句をググって調べてみれば納得がいくはずです。
    • good
    • 1

>集団は離散型ですが、正規分布は連続型なので、



そこでいう「集団は離散型」とはどういうことですか?
有限個の「サンプル」と、その背後にある「仮想の無限個からなる母集団」を混同して考えていませんか?

>例えば、各目の出る確率が均等であるサイコロ1個を36回投げる事象について考えます。

これも「サイコロの各目は 1/6 ずつ出る」というのは「母集団の分布」であり、それを「36回投げたときに1の出る回数」はある特定のサンプルということです。

>そこで1の目が出る回数をXとすると、X~N(6,5)に従うと思います。また、離散の確率分布で考えるとX~B(36,1/6)と考えることも出来ると思います。

「1つの36回試行のサンプル」の1の出る回数は、書かれているように二項分布 X~B(36,1/6) に従います。

この「36回試行」のサンプルを大量に採取してきたときの「 1 の出る回数」分布は
 平均:6回
 分散:5、標準偏差:√5
の正規分布に近づいていきます。

おっしゃっている2つのことは、こういうことかと思います。
同じものではなく、違うものです。

また、そもそも「1の出る確率は 1/6 だ」ということも、一種の「正規分布の前提」で仮定されたものということもできます。


最初の

>連続している分布から離散的な標本を取るという表現が感覚的には納得がいかない状態です。

という疑問の意味がよく分からないので的外れの回答かもしれません。
必要であれば、もう少し「何が疑問なのか」を書いてもらえると、的確な回答ができるかもしれません。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。申し訳ございません、私もかなり混乱していて変な返信となっているかもしれません。

http://lbm.ab.a.u-tokyo.ac.jp/~omori/kokusai/kok …

似たような話として、上のサイトの問題2では「学生数 800 名の X 大学で英語テストを行った.その平均は 55 点,標準偏差 8 点であった. A 君の得点は 62 点であった. 得点分布が正規分布に従っているとすると・・・」

という表現となっていますが、例えば各問の配点が自然数だった場合に、正規分布に従っていると考えると、ある点数を取った人の割合(確率)は全て0%になると思います。連続型の確率分布では点は確率0と考えますので。ある点数は55点でも0点でも100点でも良いですが。

また正規分布なので、これで0点未満を取った人の割合も0と考えていいくらいに小さいのかもしれませんが、存在します。

正規分布に従っていると考える場合は、このケースだと正の無限大の人数が受験していると仮定して、小数の点数の人も、負の点数の人も、満点を超えた人もいる状態の分布で考えているということなのでしょうか?

お礼日時:2021/01/25 00:18

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!