予想した確率の確からしさについて。

締切済

質問者：聖鬼
質問日時：2023/03/11 14:54
回答数：17件

Aさんは出来事が起こるかどうかを予想する人です。しかし、Aさんは、ある出来事が起こるとは断言せずに、ある出来事が起こる確率だけを言います。

当然、Aさんが、ある出来事が起こる確率を言ったあとに、その出来事は起こったり起こらなかったりします。

Aさんは、出来事ごとに、いろいろな確率の値を言います。

Aさんが言った確率とその出来事が起こったか起こらなかったかの過去の実績データは膨大にあるとします。

そのAさんが、次に、ある出来事が起こる確率はpと言ったとすると、その出来事が起こる「真の確率」とpが一致する度合いの判定はどうやってやりますか。

また、例えばAさんのように出来事を予想する人が複数人いるとして、過去のデータを使って、そのうちの誰が言った確率が「真の確率」に近いかを判定するにはどうしたらいいですか。

(「真の確率」は分からないとします)

みなさん、ありがとうございます。大変、勉強になります。

私も考えてみました。
例えば、予想というのは人間が未熟だからすることだと考え、本来は、世の中の事象は決定論に従っているとすると、「真の確率」は存在せず、ひとつの出来事は、起こるなら起こる、起こらないなら起こらないということで予め(確率？は)0か1に決まっていることになります。
それで、まず起こった起こらないのデータに注目します。
そして、起こったデータを集めて、個別の人ごとに予想確率を全て加算し、それプラス、起こらなかったデータを集めて(1-予想確率)を全て加算したポイント(または平均)が多い人というのではダメですか。これで、何か難点があったら教えてください。

あるいは、決定論(個別の真の確率は0か1しかない)としても、もっといい判定方法はありますか。

補足日時：2023/03/15 15:44
通報する
自分で言うのも変な話ですが、
「真の確率」って、どういうことでしょうか。

補足日時：2023/03/15 20:52
通報する

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (17件中1～10件)

最新から表示
回答順に表示

No.17

回答者： stomachman
回答日時：2023/03/15 21:07

> 「真の確率」って、

ナイスな疑問ですね。
　事象が起こるメカニズムのトリガーが純粋に確率的現象である、という系を考えます。たとえば、コバルト60が1ng入っている塊がγ線を放射する、というような「天然の乱数発生器」の出力がきっかけになってマクロな事象が確実に引き起こされるような仕組み、というものがあるときには、「真の確率」なる概念が意味を持ってきます。というのは、理想的には全く同じ条件で何度でも実験できるので、うんと回数を重ねれば発生頻度を数えることができ、その値は「真の確率」に収束するであろう。このとき「真の確率が存在する」と言ってもよろしいかと思います。が、じゃあその「真の確率」なるものを目の前に出してみせろといわれたって、それは無理。極限としてのみ意味を持つ概念です。
　一方、「1年後までにウクライナとロシアが停戦協定を結ぶ」というお題ですと、これは「全く同じ」という状況は二度とない、という意味で一回性の事象です。実験を繰り返すことが原理的にできない。こういう場合に「真の確率」という概念はそもそも意味をなさないでしょう。

- 0
- 件

通報する

No.16

回答者： stomachman
回答日時：2023/03/15 17:04

No.15へのコメントについて。

No.15で、

>> 「確率Pでevent Aが起こる」と「確率Qでevent Bが起こる」というふたつの予想をしたとき、

という考え方を示しました。「同じ予測をやってても、まとめ方が違うだけで数値変わるような指標じゃまずい」ということです。で、おっしゃるところの

> 標準偏差もどき

ではやっぱり辻褄が合わんでしょう。

- 0
- 件

通報する

No.15

回答者： stomachman
回答日時：2023/03/15 15:59

補足について。

> というのではダメですか

　その考え方で基本的にはOKなんですが、確率同士の足し算というところに無理がある。「確率Pでevent Aが起こる」と「確率Qでevent Bが起こる」というふたつの予想をしたとき、「event Aが起こり、かつ、event Bが起こる」ということの確率はP+QじゃなくてPQです。また、「event Aが起こらず、かつ、event Bが起こる」ということの確率は1-P+Qじゃなくて(1-P)Qです。だから、掛け算で行かなくちゃいけない。
　それで、No.7で紹介した「情報量」では確率の対数を使うんです。対数は
　　log(PQ) = log(P) + log(Q)
という性質があるからです。

- 0
- 件

通報する

No.14

回答者： stomachman
回答日時：2023/03/15 12:59

No.7, 10です。

No.13 < 予測の値をバンドで量子化し、そのバンド内でのeventの発生確率を「実績データは膨大にある」という前提を利用して経験分布を測るってことですね。カンペキ予測であれば（そして「実績データは膨大」なら）ナナメの直線(y=x)になるけれども、デタラメな予測ではナナメの直線どころか概ね平坦になってしまうに違いない。視覚的にわかりやすいと思います。
　なお、「凡人」の予測と比べるには、「凡人」のデータをいっぱい集めたうえで、「ナナメの直線にどれだけ近いか」を表す数値指標で比較することが結局必要でしょう。この目的では、量子化を介在させないで直接指標を計算するのが適切だろうと思います。

　ところで、たくさんのボランティアを集めて様々な社会的事件を予測するという大規模な実験に関する、「超予測力」というとても面白い本があります。（ご質問ももしかしたら、この本のカラミかもしれません。）個人ごとに年間成績をつけると、毎年毎年、上位を常連者が占める、というんです。もちろん、運だけではそうはならない。ですが、成績をどう測るかということについては（一般向けの本だからでしょう）明示していないようです。原著論文を調べればいいんですが、やってません。どう計算してるのかなー。

- 1
- 件

通報する

No.13

回答者： qas2021
回答日時：2023/03/14 20:05

No.8, 11, 12 です。

横軸に予測値、縦軸に重み付けした重み付けした発生率をプロットすれば良いように思います。
（例えば、横軸の値±0.2の範囲内のイベント発生数を、その範囲のデータ数で割る等）

どう重み付けするかという問題はありますが、正確に予測していれば、原点を通る傾き1の直線に近いものが得られ、真の確率と独立な予測値の場合は、そういった傾向が現れないと思います。
いくつか試してみましたが、良さそうな感じです。

添付画像は、30個の予測値を出して、0.02刻みで重み付け発生率を出したものです。
（添付画像参照）

- 1
- 件

通報する

No.12

回答者： qas2021
回答日時：2023/03/14 07:46

No.11 補足

> イベントの有無 vs 予測値
> はジッタリングしても分かり難く思えるし、
のジッタリングは、同じ位置に点が重なる点がある場合の話です。

- 0
- 件

通報する

No.11

回答者： qas2021
回答日時：2023/03/14 07:39

No.10 さん

実験ありがとうございます。
自分でもいくつか確認してみましたが、あまり違いが生じませんでした。
イベントの有無 vs 予測値
はジッタリングしても分かり難く思えるし、
イベントの平均発生率 vs イベントの有無
では平均発生率を計算できるほど同じ予測値があるのかとも思い、何か良い方法ないかなと思ったのですが、これでは使えませんね。

- 0
- 件

通報する

No.10

回答者： stomachman
回答日時：2023/03/13 22:01

No.8 さんのご提案をちょっと実験してみました。

まず、30個のイベントそれぞれについて、局所一様事前分布に従う乱数で発生確率p(k) (k=1〜30)を決めました。
　これとは無関係に、30個の局所一様事前分布に従う乱数で予測確率q(k) (k=1～30)を決めました。そして、その累計
　　P(j) = Σ[k=1～j] p(k) (j=1～n)
　　Q(j) = Σ[k=1～j] q(k) (j=1～n)
を作った。

　次に、確率P(k)に従って、イベントe(k)が起こる(1)か起こらないか(0)を乱数で決める、ということをやり、
　　E(j) = Σ[k=1～j] e(k) (j=1～n)
を作る。これを40回繰り返した。下の図は横軸E(j),縦軸P(j)のグラフ(上）と、横軸E(j),縦軸Q(j)のグラフ(下）、それぞれ40回分を重ねたものです。

　　確率p(k)はイベントe(k)の発生確率そのものですから、上のグラフはいわば「カンペキ予測」の成績。でも両者にはさしたる違いが見えませんでした。

- 1
- 件

通報する

No.9

回答者： kamiyasiro
回答日時：2023/03/12 11:33

おお～、ようやくマトモな議論になってきましたね。

数学のカテなのに、前半は心理学だったからなぁ。

stomachmanさんの「負の対数尤度」も評価指標のひとつだと思います。

- 0
- 件

通報する

No.8

回答者： qas2021
回答日時：2023/03/12 10:52

視覚的に確認する方法として、こんなのは如何でしょうか。

出来事が起きる確率の予測値を p[k] とおき、各予測値に対する出来事が起きたかどうかを x[k] で表します。
ここで、k = 1, …, n で、出来事が起きたら x[k] = 1、起きなければ x[k] = 0 とします。

横軸に
Σ_{k = 1 → m} p[k]
縦軸に
Σ_{k = 1 → m} x[k]
をプロットします。

もし、p[k] が真の確率と同じであれば、プロットは傾き1の直線に近いものが得られるはずです。