確率と試行回数について

締切済

質問者：TpyLgW
質問日時：2009/01/11 02:24
回答数：6件

たとえば，10回試行を行うよりも1万回試行を行った方がその結果の信頼度は高くなると思います．
また，1万回よりも1億回の試行の方が信頼度が高くなると思います．

そこで，ある処理を行うと
x%でAがBになり，(100-x)%でAがCになる場合(xは未知)

試行回数がn回の時，得られた結果の信頼度がどの程度であるかを求める式を教えていただけないでしょうか．
また，その信頼度から誤差がどの程度であるかを求める式も教えてください．

よろしくお願いします．

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (6件)

最新から表示
回答順に表示

No.6

回答者： cametan_42
回答日時：2009/01/13 14:16

Wikipediaへのリンクを紹介しておきましたが、一応補足説明しておきましょうか。

尤度に関しては、数式、あるいは概念的にいきなり理解するのは難しいんで、グラフを作成してみました。「これが貴方の訊きたかった事ではないか?」と言う事です。一応考えてみてください。

まず、二項分布B(n,p)に関して言うと、組み合わせをcombination(n, x)、成功確率をpと表記した場合、数式は次のようになります。

B(n, p)＝combination(n, x)*p^x*(1-p)^(n-x)

一方、この尤度関数はL(p|x)とした時、次のように表記します。

L(p|x)＝combination(n, x)*p^x*(1-p)^(n-x)

右辺比べてみると分かりますが、実は二項分布の場合ですと、「全く数式そのものは変わらない」んです。思わず「ふざけんな!!!」って言いそうになるんですが、実はこの二つは概念が違う、のです。数学的に言うと、「何の関数なのか」と言うのが丸っきり違うのです。
前者は「pは与えられていて固定されている」と考える。つまり、xは色々な値を取れるので、数学的には「xの関数」なのです。
(あくまで「数学的な形式上は」と言う事です。意味的には数学で言う関数とはとても思えない代物なんですが。)
後者は逆に、「xは与えられていて固定されている」と考える。これは逆にpが(確率、と言う前提上)0～1の範囲で好きな値を取ることが出来る「pの関数」です。これも「数学的な形式上は」と言う事ですが、取り合えずここは押さえておいてください。
さて、全く同じ式でも「どちらを変数として考えるのか」でグラフの概形はガラっと変わります。これが、少なくとも「確率分布」と「尤度関数」の見た目の違いを生み出します。ここまで良いでしょうか?

ところで、

http://okwave.jp/qa4623344.html

を見ると、質問的には

＞たとえば，AがB,Cどちらかになる確率は不明のとき
＞試行回数が1000回の時に
＞A→B になった回数が570回
＞A→Cになった回数が430回であったとき

と書いてますね。これはxが不明なのか、はたまたpが不明なのか?どっちでしょう?
これは字面そのもの受け取る限り、「AがB,Cどちらかになる確率は不明」って言ってますね。と言うことはこれが示す事は「pが不明」なのです。
一方、

＞A→B になった回数が570回
＞A→Cになった回数が430回であったとき

と言ってて、これは普通の確率分布で考えると明らかに確率変数の事を言ってるんですが、ところが「回数が」って言ってる限りもう既に確率「変数」じゃないんです。回数は「既に固定されています」。これ以上動きようがない。
つまり、この状況ですと、

・データは与えられてハッキリとしている。
・一方、パラメータたるpは分からん。

って事です。推定したいのはp。つまり、ここで議論しなきゃいけないのは、先ほどの例から見て分かる通り、「尤度関数」の方なんですよ。分かりますかね?

とまあ、ここで、一回問題に沿った二項分布のグラフでも…そうですね、エクセル辺りで簡単に作れるでしょうから、そっちはご自分で作成して見てみてください。ここでは尤度関数のグラフを提示しておきます。「全く違う形のグラフだ」ってのが分かるでしょう。
違いは他にも、

・二項分布のグラフは階段状で、いわゆる度数分布表(ヒストグラム)みたいだけど尤度関数は滑らかな曲線である。
・横軸の範囲が違う。二項分布の確率分布のグラフは0～1,000だが、その尤度関数は0～1、である。
・一番の違いは縦軸のラベルと横軸のラベルである。尤度関数の場合、横軸が「確率」になっていて、縦軸が「尤度」となっている。

これらの差を確認してみてください。そして尤度関数は繰り返しますが「確率分布」ではないのです。何故なら、一般的に尤度関数は定義域全域に渡って積分しても1になる保証はありません。確率分布は「1になる」のが定義ですんで、この辺は数学的には対照的なんです。
そして、尤度のもっとも大きい部分が何を表すのか、と言うと「最ももっともらしい」(ヘンな日本語ですが)確率がこれだろう、と言う値を示しています。尤度の一番デカいところから辿って、それが指している確率の値が何になるのか……。こう言う発想を「最大尤度推定法」、略して「最尤法」と呼びます。
この発想のバックグラウンドは「今起きた事象はもっともあり得るパラメータ(確率)が生んだ結果だ」と言う考え方、です。つまり、最大の尤度(もっともあり得そうな指標)が示している確率が、例えば「A→B になった回数が570回」を生み出したんだろう、と考えます。尤度が小さい確率が「A→B になった回数が570回」は生み出しづらいだろう、って事ですね。
つまり、この考え方で言うと、「誤差が「±5%である」なんて考え方はそもそも生じない、のです。
そして、この問題の場合、結論はあっけない程つまらなく簡単で……要するに「試行回数が1000回の時にA→B になった回数が570回」を「成功」と考えるのなら、570/1000が「最大尤度の」成功率、って事なんですよ。屁理屈みたいですが(笑)、1000回中570回成功した、って結果が出たのなら、成功率570/1000と言うパラメータがこの結果を生み出したのが「もっともあり得る」と言う結論になるのです。

この結果に納得しない、と仰るのなら、#5さんが示唆しているような「ベイズ統計」へと一歩踏み出さないとならないかもしれません。が、恐らくそこまでいくと、やっぱりOKWaveとか教えて!gooで気楽に質問出来る範囲から大きく逸脱するんで、専門書買って読んだ方がよろしいでしょうね。

- 0
- 件

通報する

No.5

回答者： arrysthmia
回答日時：2009/01/13 01:11

もう、読んで居られないかも知れませんが…

A No.2 の答え９９．８６％は、
No.1 補足の質問 1 で訊いているものとは、別のものを求めています。

A No.1 No.2 の説明の如く、
「A→Bになった回数」は、平均 1000x、分散 1000x(1-x) の二項分布に従うのですが、
その実現値が 570 であったことからは、x の確率分布を特定することはできず、
したがって、0.52 < x < 0.62 となる確率も求まりません。

試行回数が 1 の場合で考えてみて下さい。
　　確率 x で成立する事象を一回だけ試行してみたら、成立したとする。
　　このとき、0.52 < x < 0.62 である確率は、どれだけか。
　　(成立しなかった場合で考えてもよい。)
求まる訳がないでしょう？

例えば、x の事前確率分布を 0 < x < 1 の一様分布などと仮定すれば、
この条件の下での事後確率分布を求めることはできますが…

- 0
- 件

通報する

No.4

回答者： cametan_42
回答日時：2009/01/12 05:27

いや、これは面白い質問なんですが……ぶっちゃけ、簡単に答えるのは難しいですよ。

結構難問じゃないか、と思います。
大体「信頼度」って何でしょうか?その定義は突き詰めると結構難しいと思います。信頼度から誤差がどの程度あるか分かる?分かりますかね?これはかなり難問です。
そもそも「信頼度＝信頼区間」じゃないですし。信頼区間、ってのは推定の文脈に於いて、「手法の信頼性」を問うているんで、決して推定される母数(パラメータ)の「信頼度」の話をしてるんじゃないんです。この辺、結構勘違いされるんです。
はてさて。マジメに知りたい、と言うのなら、OKWave/教えてgoo!辺りで回答求めて済むような話じゃない、と思います。残念ながら専門書買ってそれ読むしか無いでしょうね。

質問読んで解釈する限り、問うているのは最低でも「確率分布」からははみ出していますね。恐らく。「ちょっとした思いつきで」そこに考えが至ったのなら凄い、とは正直思いますよ。ただし、初等統計学で扱われる確率分布の範疇じゃなくなってきていますね。これは「尤度」って概念知らなきゃなんないと思います。
んで、尤度の説明がまた大変なんですよ(苦笑)。取り合えずWikipediaの解説でも読んでみてください。

尤度関数:
http://ja.wikipedia.org/wiki/%E5%B0%A4%E5%BA%A6% …

これは単純に言うと、「推定されたパラメータの"もっともらしさ"」を計る指標です。この"もっともらしさ"を「信頼度」と捉えるなら、それはそうかもしれません。ただし、「誤差が出る」とか言うような類の指標じゃないですね。また、「尤度＝××%」とはなりません。
まあ、この辺を取っ掛かりとして本格的な数理統計の本を読むしかないんじゃないのかな、と思います。

- 0
- 件

通報する

No.3

回答者： sanori
回答日時：2009/01/12 03:52

はい。

それで合っています。

ちなみに、

１０００回のときの標準偏差は、１５．６６
１００回のときの標準偏差は、４．９５
ということになりましたが、
この２つには、どういう関係があるかというと、
試行回数を１０倍にしても、標準偏差は√１０倍にしかならない、ということを表しています。

４．９５×√１０　＝　１５．６６

ということは、逆に言えば、
ある、少ない試行回数での標準偏差をσo であるとして、
その標準偏差σo では大きすぎて不満であるとき、
試行回数に対する標準偏差の割合をＮ分の１にしたければ、
試行回数をＮの２乗倍にすればよいということです。

実は、これ、先程の補足の２番目のご質問の答えになってます。

つまり、目標の信頼度を得るための試行回数の決定のためには、
まず最初に、何回か試行しなくてはいけないんですね。
（そもそも、ある程度試行しなければ、ｐの値さえも未知だということもありますが。）

今回は、これまでとします。
以上、ご参考になりましたら。

- 0
- 件

通報する

この回答へのお礼

ありがとうございました．

非常にわかりやすくとても参考になりました．

通報する

お礼日時：2009/01/12 19:58

No.2

回答者： sanori
回答日時：2009/01/12 02:04

＞＞＞

考え方は非常に参考になったのですが，しばらく数学と離れていたためなのかまだ理解するに至っておりません．
そこで，よろしければ具体的な数字を使った計算をお願いできないでしょうか．

ありゃ。そうですか。

少なくとも、補足質問の１番は、前回回答の内容を追っていくだけでわかるものですから、
自力で何の計算も行うことなく丸投げで質問されるのは、非常に残念です。

＞＞＞
たとえば，AがB,Cどちらかになる確率は不明のとき
試行回数が1000回の時に
A→B になった回数が570回
A→Cになった回数が430回であったとき

ということは、

ｐ＝０．５７

ｎ＝１０００

分散Ｖ　＝　ｎｐ（１－ｐ）　＝　１０００×０．５７×０．４３
　＝　２４５．１

標準偏差σ　＝　√Ｖ　＝　√２４５．１　＝　１５．６６

です。

＞＞＞1.AがBになる確率は52%～62%(結果の±5%)であるといえる信頼度は何％なのか

±５％　ということは、具体的には　±５０回　です。
５０がσの何倍かといえば、
５０÷１５．６６　＝　３．２０
です。

ですから、正規分布表で標準偏差の３．２０倍になる数字を探します。
左の３．２　と　上の０　とが交わるところは、.4993 です。

0.4993　×　２　＝　0.9986　→　信頼度は９９．８６％

＞＞＞2.また，「±5%のである」といえる信頼度が90%になる時の試行回数は何回か

これは、別の質問として投稿してください。

- 0
- 件

通報する

この回答へのお礼

具体的な数字でのご回答ありがとうございます．

一応自分でも計算してみたのですが，
σを求めてその後どうしていいのかわからず詰まってしまいました．

確認のために
ｐ＝０．５７
ｎ＝１００
の時は
v=100*0.57*0.43
v=24.51
σ=√24.51
σ=4.95
±5%ということは5回なので
5 / 4.95 = 1.01倍
表を参照して0.3438になる．
よって信頼度は68.76になる．

ということでよろしいでしょうか？

2については新たに質問させていただくことにします．
本当にありがとうございました．

通報する

お礼日時：2009/01/12 03:24

No.1

回答者： sanori
回答日時：2009/01/11 06:17

こんにちは。

ｐ　＝　ｘ／１００
ｎ　＝　ご質問文にあるｎ
の二項分布です。

下記の記事の右側の表をご覧になってください。
http://ja.wikipedia.org/wiki/%E4%BA%8C%E9%A0%85% …

分散Ｖは、
Ｖ　＝　ｎｐ（１－ｐ）
です。

そして、
表には載っていませんが、標準偏差σ（シグマ）は、
σ　＝　√Ｖ
です。
この、標準偏差が、信頼度を６８％と設定したときの誤差を表す数値です。
（つまり、誤差の大きさをどう設定するかによって、信頼度は変わるということです。）

ＡがＢになった回数をＮB、ＡがＣになった回数をＮC、ばらつきをεと置けば、
ばらつき込みのＮB の表示は、
ＮB　±　ε
ばらつき込みのＮC のばらつきは、
ＮC　±　ε
と書けます。

二項分布を正規分布に近似できるとして・・・

ε＝σ　と決心すれば、±ε　の範囲内から外れるものは約６８％が入り、

ε＝２σ　と決心すれば、±ε　の範囲内に約９５．４％が入り、

ε＝３σ　と決心すれば、±ε　の範囲内に約９９．７４％が入ります。

正規分布表
http://www.koka.ac.jp/morigiwa/sjs/standard_norm …
0.3413×２　＝　0.6826　→　６８％
0.4772×２　＝　0.9544　→　９５．４％
0.4987×２　＝　0.9974　→　９９．７４％

逆に、
「信頼度が９０％になるようにするには、誤差の表示を標準偏差の何倍にすればよいか」
と考えるのであれば、
表の中から０．４５になるべく近い数字を探せば良いです。
表の中に、.4495 と　.4505　があるので、０．４５は、そのちょうど中間です。
そこから左端に行けば、１．６、
上端に行けば、０．０４と０．０５で、その間を取れば０．０４５。
よって、
ε　＝　σ×１．６５５
とすれば、信頼度９０％の範囲になります。

以上、ご参考になりましたら。

- 0
- 件

通報する

この回答へのお礼

ご回答ありがとうございます．
考え方は非常に参考になったのですが，しばらく数学と離れていたためなのかまだ理解するに至っておりません．

そこで，よろしければ具体的な数字を使った計算をお願いできないでしょうか．

たとえば，AがB,Cどちらかになる確率は不明のとき
試行回数が1000回の時に
A→B になった回数が570回
A→Cになった回数が430回であったとき

1.AがBになる確率は52%～62%(結果の±5%)であるといえる信頼度は何％なのか

2.また，「±5%のである」といえる信頼度が90%になる時の試行回数は何回か

を求める方法を教えていただけないでしょうか．

通報する

お礼日時：2009/01/11 19:18

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！