はじめての親子ハイキングに挑戦!! >>

中が見えない箱に玉が20個入れてあるとします。そのうち5つを取り出したところ、全てが赤い玉でした。このとき20個の玉の全てが赤い玉である確率はどうなるのでしょうか。
答えを分かり易く誘導記述していただくと、数式にそれほど強くない私としては助かります。

質問者からの補足コメント

  • このような問題でも解があるのかな?と思っての質問でした。ベイズ統計についても、何も知らないまま、そんな問題でも答えが出ると何かの本で読んだことを思い出し、専門性の高い人に質問してみようと投稿した次第です。
    お二方の論戦は分からぬなりに大変勉強になりました。ご両名様に厚く感謝いたしながら質問を閉じさせていただきます。。

      補足日時:2019/02/22 07:54

A 回答 (22件中1~10件)

←No.19お礼へ



うーん、そのミスを指摘できるのはスゲェとしか。
計算してたとき、6188 と 6586 が近すぎることに
微妙に違和感があったような気はするのだけれど、
検算する気が起こらないほど計算疲れしてた。
やっぱ、ゴリ押しが過ぎたかなあ。
御指摘に従って、真面目に計算してみよう。

使えそうなネタは aCb = (a-1)C(b-1) + (a-1)Cb
くらいしか思いつかない。これを a=k+1, b=m+1 で使って
kCm = (k+1)C(m+1) - kC(m+1).
これを k = m+1…n で総和すると、
Σ[k=m…n]kCm - mCm = (n+1)C(m+1) - (m+1)C(m+1) より
Σ[k=m…n]kCm = (n+1)C(m+1).
これは、たぶん周知の式なのだろうが、私は知らなかった。

p(k) = (kCm)/(nCm) より、
求めたい確率は {1/(n+1)}p(n)/Σ[k=m…n]{1/(n+1)}p(k)
= (nCm)/{(n+1)C(m+1)} = (m+1)/(n+1).
(たぶん鏡の中の)御友達の正解どおりになった。
    • good
    • 0

うんちくの多い#17です。



この問題の類似問題で、企業での実問題を挙げておきます。ご参考まで。

『今日、この工程では200台出荷する予定である。従来、この工程は、平均して0.5%の不良率であるが、正確に0.5%ではなく、その標準偏差は約0.1である。
ところが、今日は設備の調子が悪い。これまで20台生産して(非復元抽出)、5台も廃却不良が出た。
良品200台確保するため、正味何台生産しなければならないか予測して、追加部品を調達せよ。母確率の95%信頼上限を使って安全側で予測せよ。』

こんな問題を自動で解くようにして、生産管理システムのソフト中に入れておけば良いのです。
    • good
    • 0

うんちくの多い#17です。



それもで、かなり食い違いますね。

事前分布を一様分布として、5個非復元試行で観測し、残り15個が赤玉である確率Pは、私はベイズの計算で「一回の試行当たりの赤玉が出る確率p」を求めており、15個は二項分布を想定して解いています。

p=0.8324
P=0.06382357

貴殿の29%と私の6%、かなり食い違いが出ています。
何が違うのでしょうか。
    • good
    • 0

値が随分食い違うなと思ったら、箱の球は20個じゃないか。


No.13 を訂正。

事前確率分布として、箱の中の赤球が
0, 1, 2, …, 20 個である確率を
各 1/21 づつの等確率と置く。

箱の中の赤球が k 個という条件下に
5 個取り出した球が全て赤である確率 p(k) は、
k < 4 のとき p(k) = 0,
k ≧ 5 のとき p(k) = (kC5)/(20C5).
表にすると以下のようになる。
p(5) = 1/(20C5),
p(6) = 6/(20C5),
p(7) = 21/(20C5),
p(8) = 56/(20C5),
p(9) = 126/(20C5),
p(10) = 252/(20C5),
p(11) = 462/(20C5),
p(12) = 792/(20C5),
p(13) = 1287/(20C5),
p(14) = 2002/(20C5),
p(15) = 3003/(20C5),
p(16) = 4368/(20C5),
p(17) = 6188/(20C5),
p(18) = 6586/(20C5),
p(19) = 11628/(20C5),
p(20) = 15504/(20C5).

5 個取り出した球が全て赤だったという条件下に
箱の中の赤球が 20 個である確率は、
(1/21)p(20)/Σ[k=0..20](1/21)p(k)
= 15504/(1+6+21+56+126+252+462+792+1287+2002+3003+4368+6188+6586+11628+15504)
= 15504/52282
≒ 0.2965…

電卓だけでできたが、大変だった。
何かプログラムでも組めばよかったかな?
    • good
    • 0
この回答へのお礼

P(18)の分母ですが 8568 を 6586 と書き間違われています。 
それで 修正された確率は 15504/54264=0.2857・・・
この答えは(5+1)/(20+1)と同じです。
私の知り合いに数学の得意な人がいて、その人によると、n個の玉のうちm個連続で赤が出た場合の、玉全てが赤の確率は (m+1)/(n+1)だよと教えてくれました。
どうしてそうなるのかは、「お前に説明したところで分からんだろう」 と言われたので、尤もなことだと結果だけを覚えて帰った次第です。

お礼日時:2019/02/21 07:36

うんちくの多い#17です。



ご質問者様、皆様、お待たせしました。
まず最初に#17の回答を破棄させて下さい。数値が若干異なりました。
また、今回はdhyper関数の使い方が分かったので私も勉強になりました。ありがとうございました。

さて今回は、事前分布の確率密度関数を、
・簡易的な離散確率ではなくキチンと連続分布と考えて、
・本来は積分でやるところをMCMC(マルコフ連鎖モンテカルロ法)を用いて、
正確に計算しました。これに伴って事前分布が一様分布の場合は1/21(離散)ではなくB(1,1)(連続)で与えるようにしました。

MCMCソフトはフリーソフトであるOpenBUGSを使いました。そのスクリプトは以下の通りです。結果は私の危惧通り、簡易的に刻んで計算した場合に対し、試行1回あたりの赤玉出現確率の期待値が次のように違っていました。

・一様分布を想定した場合
0.8928571 → 0.8324
・B(5,5)を想定した場合
0.6889171 → 0.6454

この結果、残り15個が全て赤玉である確率も変わりました。簡易計算はこのような違いが出るので、私は計算手順だけ示して結果を隠していましたが、やっと胸のつかえが取れました。また、他者の回答にあった「単なる条件付き確率の計算なのだった。」は間違いであるとお分かり頂けたと思います。しっかり理解して欲しいものです。

・OpenBUGS(WinBUGS)のスクリプト
・シミュレーション回数は10万回、バーイン区間の除去は1000回です。
・出力には、期待値(mean)だけでなく、信頼区間(パーセンタイル)も表示されています。

#_Red_ball
#
model
{
psi~dbeta(5,5)
x~dhyper(x,m,N,psi)
}
list(x=5,m=5,N=20)
#


①事前分布B(1,1)を設定した時のMCMCの結果(OpenBUGSの出力)

_____mean____sd______MC_error__val2.5pc_median__val97.5pc_start__sample
psi__0.8324__0.1386__6.608E-4__0.4906___0.8677__0.9948____1______100000

上記期待値(mean)を用いて残り15個が赤である確率を求めると(Rの出力)、

dbinom(15,15,0.8324)
[1] 0.06382357

②事前分布B(5,5)を設定した時のMCMCの結果(OpenBUGSの出力)

_____mean____sd______MC_error__val2.5pc_median__val97.5pc_start__sample
psi__0.6454__0.1214__3.794E-4__0.3949___0.6519__0.8609____1______100000

上記期待値(mean)を用いて残り15個が赤である確率を求めると(Rの出力)、

dbinom(15,15,0.6454)
[1] 0.001404218

ちなみに、企業では類似の技術問題が発生しますが、そのときは、こんな方法(ベイズ)で発生確率を見積もっています。技術者全員が理解してるわけでなく、データサイエンティストという人たちが計算を行います。
    • good
    • 0

#15です。



ご質問者様へ、しばらく閉じないで下さい。
OpenBUGSを使ってMCMCで解いた回答を載せたいと思います。プログラムを書く時間を下さい。ギブアップするかもしれません。

#14様へ、先に投稿したRのスクリプトに書いた関数を利用すると、

事前確率として離散一様分布1/21を想定した場合は、
> N <- 20
> j <- 5
> prob.func(j,N,1)
[1] 0.8928571・・・5個連続して赤が出た時に想定される母確率pの期待値
> dbinom(N-5,N-5,prob.func(j,N,1))
[1] 0.1826963・・・残り15個が赤である事象の確率

事前確率としてB(5,5)を想定した場合は、
> prob.func(j,N,2)
[1] 0.6889171・・・5個連続して赤が出た時に想定される母確率pの期待値
> dbinom(N-5,N-5,prob.func(j,N,2))
[1] 0.003736838・・・残り15個が赤である事象の確率

となります。グラフでは概算しか読めませんが、数値としてはこんな感じです。なお、企業では期待値を用いず安全側の95%信頼上限を使ったりします。
でも、この計算は積分ではなく刻んで求めていますので、正しいとは言えません。時間はかかりますが、MCMCでの結果を報告させて下さい。
    • good
    • 0

答えは出さないの?

    • good
    • 0

#12です。



ご質問者を無視して、長々と細かな話を続けてスミマセンでした。ただ、計算方法は#13とはちょっと違いますので、ご注意ください。ベイズの計算で事後確率の期待値として母確率pを求めたら、20個とも赤である事象の確率Pを別途求めなければなりません。
    • good
    • 0

>お二方の専門性が高く高度な統計議論に



いえいえ、私が書いているのは、素朴な算数です。
少なくとも、専門用語を並べてはいないと思います。
    • good
    • 0

ああ、そういうことか。


薀蓄が長いので、話の要点を見落としていた。
なるほど、これは私のほうの言いがかり
だったらしい。

事前確率分布として、箱の中の赤球が
0, 1, 2, …, 10 個である確率を
各 1/11 づつの等確率と置く。

箱の中の赤球が k 個という条件下に
5 個取り出した球が全て赤である確率 p(k) は、
k < 4 のとき p(k) = 0,
k ≧ 5 のとき p(k) = (kC5)/(10C5).
表にすると以下のようになる。
p(5) = 1/252,
p(6) = 6/252,
p(7) = 21/252,
p(8) = 56/252,
p(9) = 126/252,
p(10) = 252/252.

5 個取り出した球が全て赤だったという条件下に
箱の中の赤球が 10 個である確率は、
(1/11)p(10)/Σ[k=0..10](1/11)p(k)
= 252/(1 + 6 + 21 + 56 + 126 + 252)
= 6/11.

ベイズとは言っても、事前確率→事後確率の
順方向なので、単なる条件付き確率の計算なのだった。
    • good
    • 0
この回答へのお礼

お二方の専門性が高く高度な統計議論に(理解が及ばないながら)感心いたしました。

お礼日時:2019/02/17 18:10

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q三角修正方式とは

企業で働く統計家ですが、先日社内で質問を受け、お恥ずかしながら答えられなかったので教えて下さい。

毎月勤労統計の補正に関してです。「三角修正方式」という補正が行われるとのことですが、それについて教えて下さい。ネットで見ても良く分かりません。

①何を補正するときに使用されるのですか(例えば非正規分布の母集団からのサンプルを取った時の平均値を修正する等)。

②どんな定理に基づいているのですか。

③サンプリングデータの分散の「有限母集団修正」とは違いますよね。

Aベストアンサー

https://www.mhlw.go.jp/file/05-Shingikai-10701000-Daijinkanboutoukeijouhoubu-Kikakuka/0000096086.pdf
によれば、「三角修正方式」なるものは単なる一次補間のことらしく、数学的根拠などあろうはずもないようで。

Q統計について。

次の問題がわかりません。教えていただけると幸いです。

Aベストアンサー

No.1&2 です。#1, #2 に書いたことは、どうやら画像に示された「解説」とほとんど同じ内容ですね。

これ以上の「親切な」説明はしようがないので、もしこれで「分からない」のだとしたら、単に「勉強していないでしょ?!」としか言えません。
きちんと「四分位数」のところを復習してから読み返してください。
「定義」も「基本」も知らずに解説だけ読んだって、そりゃあ分かるはずがありませんから。

テキストをきちんと読むか、あるいは下記のようなサイトを参照してください。
https://atarimae.biz/archives/19162
https://kou.benesse.co.jp/nigate/math/a13m0403.html

Qハヤブサ2は、太陽の惑星なのですか?あるいは、リュウグウの衛星なのですか?

はやぶさ2は、小惑星リュウグウの石や砂などを採集できたそうで、おめでとうございます。
ところで、ハヤブサ2の動きを考えています。
彼は、太陽の惑星なのですか?あるいは、リュウグウの衛星なのですか?

Aベストアンサー

人工物で軌道も変化しますから、そんな定義はできません。
人工の宇宙飛行物、という事になるでしょう。

Q統計学の質問です。この問題がわかりません。 ∫xdF(x) 0〜∞まで積分なのですが、解答をみると、

統計学の質問です。この問題がわかりません。
∫xdF(x) 0〜∞まで積分なのですが、解答をみると、部分積分よりとなっているのですが、どのように部分積分ができるのかわかりません。よろしくお願いします。

Aベストアンサー

No.1へのコメントについてです。

E(X) = ∫{0〜∞} x φ(x) dx でしょ。だからですよってば。

Q統計学のしつもんです。この2番を解いてもらってもよろしいでしょうか?1番の答えは幾何分布となり、 G

統計学のしつもんです。この2番を解いてもらってもよろしいでしょうか?1番の答えは幾何分布となり、
G(p)=1-e^-λとなりました。

Aベストアンサー

(1)の答だとおっしゃる式が意味をなしてないでしょう。Ex(λ)の確率密度関数をφ(x)とすれば、
  P(Y=y) = ∫{y〜y+1} φ(x) dx (y∈自然数)
という離散分布ですよね。(1)ができれば(2)は真面目に計算すればどうということはないでしょう。

Q正規分布の和の計算

正規分布の和について教えて頂けませんか?
あるサイトを見たら、2つの正規分布の和の新しい平均はμ1+μ2だと解説しています。
これは間違いでしょうか?正しいでしょうか?
A組の数学の平均が70点(100点満点)で、B組が90点(同じテスト)の場合、A+B組の数学の平均は70+90となります・・・・そんなはずはありません!しかし他のサイトにも同じ解説がありました。
これは(μ1+μ2)/2の間違いではないでしょうか???
よろしくお願いします。

Aベストアンサー

ANo.12に付けられたコメントについてです。

> 現実世界で実際にこのように足して新しい分散を考えるときはどのような時

 たとえば「アボカドの種と、手作り植木鉢をひとつづつ袋に入れたセットを作った。種の質量の分布と植木鉢の質量の分布がわかっているとき、袋には種と鉢をランダムに投入したとすると、袋の質量の分布は?」

 種と鉢とが独立にサンプリングされている場合、袋の質量の確率密度関数φは、種の質量の確率密度関数sと鉢の質量の確率密度関数hの「畳み込み積分(convolution)φ=s*h 」で計算できます。しかし、平均や分散を知りたいだけなら、sとhの平均と分散だけわかっていれば良く、畳み込み積分は必要ない。(もちろん、どうしてそんな公式が成り立つのかを証明するには、畳み込み積分を使うんです。)

 統計学で最も重要な応用をひとつ挙げれば、「平均μ、標準偏差σを持つある分布からランダムに10個のサンプルx[1],x[2],…,x[10]を取って、その平均値mを計算する。mはどんな分布に従うか。」
 (「平均値m」なんて言葉でうっかりわかった気にならないで)mってどうやって計算するのかを考えれば、
   m = (1/10)x[1] + (1/10)x[2] + … + (1/10)x[10]
です。(重み付きの)足し算で計算したものmの分布を考えているわけですから、mが従う分布の平均と分散はご覧のサイトに書いてあるであろう公式を使って計算できますね。

ANo.12に付けられたコメントについてです。

> 現実世界で実際にこのように足して新しい分散を考えるときはどのような時

 たとえば「アボカドの種と、手作り植木鉢をひとつづつ袋に入れたセットを作った。種の質量の分布と植木鉢の質量の分布がわかっているとき、袋には種と鉢をランダムに投入したとすると、袋の質量の分布は?」

 種と鉢とが独立にサンプリングされている場合、袋の質量の確率密度関数φは、種の質量の確率密度関数sと鉢の質量の確率密度関数hの「畳み込み積分(convolution)φ=s*h 」で計算...続きを読む

Q統計学の平均値の誤差範囲って何ですか? 平均値に誤差なんて出るのですか? 平均値には全てにおいて誤差

統計学の平均値の誤差範囲って何ですか?

平均値に誤差なんて出るのですか?

平均値には全てにおいて誤差範囲というのが存在するのですか?

Aベストアンサー

#4です。

「平均値の差の検定」を間違えていることに気付きました。
私の記述は、A社B社「2組の平均値の差の検定」ですので、平均値の差の期待値は0、分散は分散の加法性で、σ^2/nの2倍になりますので、平均値の差はN(0,2σ^2/n)の正規分布に従うとして検定せねばなりません。

スミマセンでした。

Q大きさNの有限母集団(θ1、…θn)の中から、非復元抽出で大きさnの標本X1、X2、…Xnを無作為に

大きさNの有限母集団(θ1、…θn)の中から、非復元抽出で大きさnの標本X1、X2、…Xnを無作為に取り出す時のX1の分布の平均の求め方を教えて欲しいです。

Aベストアンサー

X1、X2、…Xn の間で、抽出後に特に並べ替えをしないのであれば、
X1 の平均は、母集団から 1 個無作為抽出したときの平均と同じです。
つまり、母集団平均 (1/N)Σ[k=1..n]θ_k ですよ。

Q指数分布の最頻値と中央値の求め方を教えてください!!

指数分布の最頻値と中央値の求め方を教えてください!!

Aベストアンサー

指数分布の確率密度関数は
  φ(x) = x≧0 のとき λ exp(-λx), x<0のとき0
であり、
  ∀x(φ(x)≧0), ∫{0~∞} φ(x) dx = 1
を満たしている、フツーの確率密度関数。
最頻値を質問するってのは宿題丸投げじゃないか?中央値cは
  1/2 = ∫{0~c} φ(x) dx
から瞬殺。

Q1+2+3+4+...=-1/12はどうやっても成り立つものなのでしょうか

ゼータ関数Σ1/n^sのsに-1を入れた式が1+2+3+...になるのは式の上で簡単に分かります。
ゼータ関数を解析接続で拡張したあとに-1を入れたら-1/12になるのはそうなんですねといった感じですが、ゼータ関数以外を使って1+2+3+...(のようなもの)を計算したときに-1/12以外にはならないのでしょうか。
ある定義域外の値を入れると式の上で「1+2+3+...」になるような、部分的に定義された正則な関数はゼータ関数以外にもありえそうな気がするのですが、その関数を解析接続で拡張し、その拡張された関数を使って1+2+3+...のようなものを求めても必ず-1/12になるのでしょうか。
また、自然数の総和以外にも、他の本来収束しない数列などに対して解析接続によって与えられる値はどうなのでしょうか。

関数f(z),g(z),発散する数列Anがあり、
ある値p,qがあってf(p)とg(q)が共にAnの極限と式の上で一致し、
しかしf,gをそれぞれ解析接続して得た関数F,GによるF(p)とG(q)は異なる、
といった場合はあり得るのでしょうか。

式の上で一致、という言葉がかなり曖昧ですが初学者の興味ということで…

ゼータ関数Σ1/n^sのsに-1を入れた式が1+2+3+...になるのは式の上で簡単に分かります。
ゼータ関数を解析接続で拡張したあとに-1を入れたら-1/12になるのはそうなんですねといった感じですが、ゼータ関数以外を使って1+2+3+...(のようなもの)を計算したときに-1/12以外にはならないのでしょうか。
ある定義域外の値を入れると式の上で「1+2+3+...」になるような、部分的に定義された正則な関数はゼータ関数以外にもありえそうな気がするのですが、その関数を解析接続で拡張し、その拡張された関数を使って1+2+3+....続きを読む

Aベストアンサー

1 + 2 + 3 + 4 + ... = -1/12 だと言いたがる人は
ある程度以上に数学が解る人の中にも多く、
困ったものだと感じています。
素人を困惑させることが、そんなに楽しいのでしょうか。
数学の楽しみは、ものごとをちゃんと考えることにあるので、
あえて話をわかりにくくして「これがロマンだ」みたいな
ことを言われても、なんだかなあな印象です。
そういうアプローチじゃないことが数学のロマンなんだと、
数学者でない私は考えています。

ゼータ関数 ζ(s) が Re(s) > 1 で ζ(s) = Σ1/n^s と表されることと、
ζ(-1) = -1/12 であることは事実ですが、
ζ(s) が Σ1/n^s で表されるのは Re(s) > 1 の範囲でだけです。
関数の級数表示は収束域が制限される場合があるからこそ、
解析接続に意味があるのです。
1 + 2 + 3 + 4 + ... = -1/12 という式は、ζ(-1) = -1/12 を意味しません。
その式は、左辺が発散しているだけの、成立しない等式です。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング