選ばれる確率が偶然以上かどうかの質問

Question

統計はシロートなので、教えていただけたらと思います！

選択肢が50個あり、30人の被験者にこれら50個の中から一つを選んでもらったところ、以下のような結果が出ました。

A：１０回
B：７回
C：４回
D：４回
E：２回
F：１回
G：１回
H：１回

I以降残りの４２個は1度も選ばれませんでした。

おそらくABCDは明らかに、1/50の確率ではなく、好き好んで選ばれていると思います。
しかし、EFGHは、１回か２回しか選ばれていません。

これらEFGHは、残りの選ばれなかった４２個よりも、有意に選ばれる確率が高いのか、それとも今回は偶然選ばれただけで、今後31人、40人と被験者を増やしたら、残りの42個と変わりはないのか、
ということを知る方法はあるのでしょうか？

もしあれば教えていただけたらと思います。無ければあきらめます。

ちなみに、SPSSがあるので、SPSSで調べる方法があるのなら最高です。

kamiyasiro · Accepted Answer

企業で統計を推進する立場の者です。

「適合度の検定」には違いないが、
頻度0があるので、たぶんできません。
エラーになるか、SPSSのような高級ソフトであれば、
自動的に「フィッシャーの正確確率検定」に切り替えてくれるかも。

それでも無理かもしれません。
なぜなら、50項目に対して、30回しか試行していないから。
いい加減なソフトなら、確率値を入れてダマせるけど、
治験に使えるようなSPSSは、許してくれないかもしれません。

ところで、今後サンプルを増やしたときの問題というのは、
古典統計では、あまり考えていないことです。
古典統計では、現在の観測結果の平均や分散が、
最尤推定値として、そのまま母集団の点推定値になっているのです。
現時点で観測0ならば、今後もその確率で出ると考えますので、
I以降は、出ないという予想になります。

ところが、今回は30回しか試行していないから、
もしかすると、まだ選ばれていない項目があるかもしれません。
つまり、現時点で観測0でも、出る可能性はあるのです。
この問題は、ベイズ的な議論になります。

この問題は50項の多項離散確率であって、
ノンパラメトリック・ベイズという
難しい方法を使わなければなりません。

ということで、興味があったので、OpenBUGSで
やってみましたが、案の定エラーになりました。
50項目に対し、30回の試行では、情報が少なすぎますね。

［参考］OpenBUGSのスクリプト

model {
  phi[1:V] ~ ddirich(theta[])
  for (n in 1:N) {
    w[n] ~ dcat(phi[])
  }
  for (v in 1:V) {
    theta[v] <- 1/50   #全ての目が同等
  }
}
list(V=50,N=30)
list(w=c(10,7,4,4,2,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0))

smilekiseki · Answer

統計的な手法というのは直感的に考えた理由や原因に意味があるのかどうかを検証する手段ですので、選ばれなかった４２個よりも１０回選ばれた１個に着目したほうが良いと思います。
また、選ばれた理由については３０人の被験者に着目すべきだと思いました。
理由は以下のとおりです。

もしも、偶然選ばれることを前提とした実験だとしたら、特定の１個が１回に選ばれる確率は毎回同じく50分の1ですので、２回選ばれる確率は250分の1、４回だと625万分の１になります。
４回以上選ばれることは、ほとんどあり得ないのに、Aが10回以上選ばれるというのはもはや異常値です。そのため、30人のうち10人すなわち3分の1の人がAを選んだということに着目するのが良いと思います。

30人のうち10人が50個のうちAを選んでしまう実験結果で、私がすぐに思い浮かんだのは、異性の顔写真50人の中から、30人はどれを選ぶかという実験です。これだと、原因は50個の方ではなく30人の方にあるとすぐに気づくと思います。
　そのため、Aを10回選ぶのが偶然に起きそうで偶然ではない可能性がある実験を考えてみました。
同じ色の小さな小さなカラーボール50個を外枠が正方形で底が平らな容器にきれいに並べて入れて、30人からそれぞれ1個選んでもらうのですが、一人が選び終わるとそのボールはまた元の位置に戻してもらうことにします。
　この実験でAの位置にあったのが10回選ばれたとすると、30人の被験者に何故その位置にあるボールを選んだのか聞いて、更に何故そう思ったのかを聞いていくと答えが見つかるかもしれないし、結局わからないかもしれません。
　更に、ボールの色を変えたり、外枠の形を丸に変えたり、正方形の角を上にして被験者から見てひし形のように見えるようにしたりとか台の上にそのまま置くのではなくいろんな模様の敷物に乗せてみたりとか・・・。ちょっと面白くなってきたので、今度は被験者に50個のうち3個だけ当たりがありますと言った後に選ばせる・・・とか。

たぶんなにかのアンケートのような気がしますが、いずれにしろ、50個の方ではなく30人の方に着目したほうが良いと思います。

kamiyasiro · Answer

#2です。

今後、サンプルを増やしたときに、他の項目はどれだけ出るのか、
古典論では、現状0のものは、推定確率0だから、今後も出ないという予想になるが、
出ないはずはない。それを知る方法はあるのでしょうか？
について、

スミマセン！訂正させて下さい。
50項目に対して、30回の試行でも、ベイズ推定できました。
私の作成したスクリプトが違っていました。
以下の結果が、10000回のシミュレーション（MCMC）の結果です。
A～Hまでは、観測値に近い値が推定されています。
ただ、観測値＝0の項目の生起確率も推定されています。
シミュレーションですから毎回結果は微妙に異なりますが、
I以降の項目であっても、0.06％くらいは生起する可能性があります。
（phiは「φ」の意味で使っています）

_________推定確率
phi[1]	0.3222	A
phi[2]	0.2278	B
phi[3]	0.1306	C
phi[4]	0.1287	D
phi[5]	0.06513	E
phi[6]	0.03244	F
phi[7]	0.03325	G
phi[8]	0.03313	H
phi[9]	6.811E-4
phi[10]	6.436E-4
phi[11]	5.918E-4
phi[12]	6.79E-4	
phi[13]	5.759E-4
phi[14]	6.375E-4
phi[15]	7.145E-4
phi[16]	6.413E-4
phi[17]	5.974E-4
phi[18]	6.517E-4
phi[19]	7.585E-4
phi[20]	5.871E-4
phi[21]	6.681E-4
phi[22]	5.858E-4
phi[23]	6.37E-4	
phi[24]	6.405E-4
phi[25]	5.514E-4
phi[26]	6.188E-4
phi[27]	7.45E-4	
phi[28]	6.496E-4
phi[29]	5.865E-4
phi[30]	6.566E-4
phi[31]	6.839E-4
phi[32]	6.323E-4
phi[33]	6.308E-4
phi[34]	5.941E-4
phi[35]	6.442E-4
phi[36]	6.021E-4
phi[37]	6.683E-4
phi[38]	6.411E-4
phi[39]	6.252E-4
phi[40]	6.676E-4
phi[41]	6.453E-4
phi[42]	5.842E-4
phi[43]	6.559E-4
phi[44]	5.522E-4
phi[45]	6.288E-4
phi[46]	6.641E-4
phi[47]	6.233E-4
phi[48]	6.268E-4
phi[49]	6.1E-4	
phi[50]	6.367E-4

以下は、OpenBUGSの正しいスクリプトです。
2番目のlistの記述方法が違っていました。

model {
  phi[1:V] ~ ddirich(theta[])
  for (n in 1:N) {
    w[n] ~ dcat(phi[])
  }
  for (v in 1:V) {
    theta[v] <- 1/50   #全ての目が同等
  }
}
list(V=50,N=30)
list(w=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,4,4,4,4,5,5,6,7,8))

yhr2 · Answer

時間がないので概要だけを書きますと、「通常の比率に対して、異常な比率かどうか」を判定する「適合度の検定」というものがあります。
例えば、通常のサイコロであれば各目の出る確率は1/6ずつですが、特定のサイコロの出る目を実際に観測して、それが正常なサイコロと言えるか、いびつだったり重心が偏っているなどの理由で目の出方が異常か、ということを、統計的に検定する手法です。
「カイ2乗検定」（ピアソンのカイ2乗検定）と呼ばれる手法で、どんなテキストにも載っていますし、検索されればいろいろな事例が出てくると思います。

お示しの例だと、選択肢50個が「同等」の確率であれば、ある選択肢が30人の被験者に選ばれる期待値は
　　30人 × 1/50 = 0.6（人）
です。
この「期待値」に対する「統計的ばらつき具合」から見て、ある選択肢の選ばれ方が「統計的にあり得ないほど異常な値かどうか」を判定するものです。

ここに概要があります。血液型の例が載っています。（日本人の血液型の比率から見て、被験者グループの血液型の比率は正常か異常か）
http://www.geisya.or.jp/~mwm48961/statistics/kai2.htm

こちらには、男女の比率、サイコロの例も載っています。
http://d.hatena.ne.jp/Zellij/20111202/p1

こんなところを参考に、やってみてはいかがでしょうか。

SPSSというソフトはよく知りませんが、通常の統計ソフトなら、必ず「カイ2乗検定」の機能はあると思います。（この「カイ」はギリシャ文字です。ローマ字の「X」に似ています）
カイ2乗検定には、比率が既知のものの「適合度の検定」、2つのグループの特性が同じと言えるかの「独立性の検定」の、大きく分けて2種類があり、この場合は「適合度の検定」に該当します。
https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A

選ばれる確率が偶然以上かどうかの質問

企業で統計を推進する立場の者です。

統計的な手法というのは直感的に考えた理由や原因に意味があるのかどうかを検証する手段ですので、選ばれなかった４２個よりも１０回選ばれた１個に着目したほうが良いと思います。

#2です。

時間がないので概要だけを書きますと、「通常の比率に対して、異常な比率かどうか」を判定する「適合度の検定」というものがあります。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング