プロが教える店舗&オフィスのセキュリティ対策術

https://oshiete.goo.ne.jp/qa/12596989.html
以前、確率について質問した者です。

今回の質問ですが、2×2分割表の集計データは4項分布と捉えることもできるのでしょうか?

以下の集計表は、あるワクチンを接種した人のうち副反応が出た人を対象としてランダムに100人抽出して、副反応の強弱を男女別に集計したものとします。(テーマや数値は適当に考えています。架空の調査結果です。)

そして各確率を以下のように定めます。

p11:男性でかつ副反応が弱く出た確率
p12:男性でかつ副反応が強く出た確率
p21:女性でかつ副反応が弱く出た確率
p22:女性でかつ副反応が強く出た確率

ワクチンを受けた人で、副反応が出た人の母数が調査人数より十分に多ければ、p11やp12は定数とみなせると考えています。

そして反対に、母数が調査人数に近い場合はp11やp12を定数としてみなせなくなると思います。

なのでワクチンで副反応が出た人が、今回の調査対象人数100人より十分大きいと考えた場合、調査結果が分割表のようになる確率は

(100!/32!8!42!18!)*(p11)^32*(p12)^8*(p21)^42*(p22)^18

と4項分布として考えられると思ったのですが、この考え方は正しいでしょうか?

「2×2分割表(クロス集計表)は4項分布と」の質問画像

A 回答 (5件)

No.4へのコメントについてです。



> 確率密度関数f((n_ij))∝(p11^n11)*(p12^n12)*(p21^n21)*(p22^n22)という式が出てきてから混乱しました。

 離散分布なので「確率密度関数」ではなく「確率質量関数」ですね、ってのはさておいて。
 この関数f((n_ij))を確率質量関数だと思うことにすれば、「母集団Sが4つの部分集合 R11, R12, R21, R22=S\(R11∪R12∪R21)に分割されていて、Sからランダムに取ったサンプルxが x∈Rijとなる確率がp[i,j]である、という状況で、ランダムかつ独立にN個のサンプルを取った時に、R11, R12, R21, R22に入るサンプルの個数がそれぞれ n11, n12, n21, N-(n11+n12+n21) となる確率」と解釈できます。(「分割」の意味はお分かりでしょう。)
 二項分布の場合と比べるのが参考になると思います。二項分布の確率質量関数f(n)を同じような表現で説明してみると、「母集団Sが部分集合 R1と補集合R2に分割されていて、Sからランダムに取ったサンプルxが x∈R1となる確率がpである(従って、x∈R2となる確率は1-p)という状況で、Sからランダムかつ独立にN個のサンプルを取った時に、R1に入るサンプルの個数がn(従って、R2に入るサンプルの個数はN-n)となる確率」です。

> ここでいうp11は何を分母として、何を分子とした確率なのかということを考え始めて混乱しました。

 混乱なさるのは当然で、それは問いが間違っているからです。分子と分母で計算されるのは確率ではなくて割合です。「偏ったコインCをN=1000回投げて表がn=141回でた」という場合に、「コインCを投げて表がでる確率p」の値は割合n/Nを使って推定するけれども、それは推定値であって、pそのものではありません。(例えば、p=√2 だったら、割合(有理数)では決して表せない。)

>>「母数(parameter)」とは、ご質問の場合なら(p11, p12, p21, p22)のことですぜ?
>確率ではないのですか?

関数において、母数とはただの定数にすぎません。 例えば
  f(x) = ax+b
は母数a,bを持つ関数です。で、この関数を 「実数a,bは確率である」という解釈のもとで利用するかどうかは、関数の方からすれば知ったことじゃありません。
 統計において母数の推定を行うのは、「サンプルsの属性ベクトルv(s)が従う分布がある関数で表されることはわかっているが、その母数の値は知らない」という状況で、母数を推定したい、という問題を設定した場合です。例えば、「v(s)がv(s) = (x,y)というベクトル値で、これがy=f(x)という直線に近いところに分布する、ということがわかっている。未知の母数a,bを推定したい」という場合なら回帰分析でa,bを推定する。この場合には母数a,bは確率とは解釈されていません。
 一方、「偏ったコインCをN=1000回投げて表がn=141回でた」話では、サンプルsとは「表」か「裏」かをN個並べたN次元ベクトルです。(N個のサンプルがあるのではないことにご注意。1個だけのサンプルsに関する話ですよ。)そしてv(s)=「s中の「表」の個数」である。すると「v(s)=nとなる確率が、関数
  f(n) = NCn (p^n)(1-p)^(N-n)
に従うのはわかっているけれども、その母数pの値は知らない」という状況である。この場合の母数pは確率と解釈しているわけです。が、f(n)はp=-1やp=3でも問題なく定義される、ということにご注意下さい。f(n)を「確率質量関数だと思う」のはf(n)を応用する側の勝手であって、f(n)の知ったことじゃない。

 で、ご質問の場合には、帰無仮説「性別と副反応は無関係」のもとでは、「表が出る確率がaの偏ったコインAと、表が出る確率がbの偏ったコインBを投げる。Aが表=1か裏=2か、とBが表=1か裏=2かの組み合わせで、結果を4通りに分類してカウントした」ということです。なので母数はa,bなのですが、これを
  p11=ab
  p12=a(1-b) = a - ab
  p21=(1-a)b = b - ab
  p22=(1-a)(1-b) = 1- a- b + ab
という冗長な4つの数値に写して、4つの母数を持つ関数f((n_ij))を使って表した。
 さてこのとき、関数f((n_ij))の母数(p11, p12, p21, p22)がそれぞれどんな実数値であろうと、f((n_ij))は関数として成立しています。(例えばp11=-1, p12=3,...というのでも構わない。)で、a,bを冗長な4つの数値に写したのは、関数f((n_ij))を2個の偏ったコインの実験に関する確率質量関数として利用できるようにするために追加した制約条件にすぎません。言い換えれば、本来2個の独立した母数a,bで支配される現象を、4個の冗長な(独立でない)母数を持つ関数f((n_ij))を使って表現する、ということで、(冒頭に書いた通り)「この関数f((n_ij))を確率質量関数だと思」えるようにしたということです。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。
混乱していましたが、確率については解決いたしました。

> 母数が調査人数に近い

については言葉がおかしかったと思います。

母集団Sが標本集団(サンプルとして取ったN個の集団)よりも十分に大きくないと2項分布としてみなせないのかなと思っていました。

母集団SからサンプルとしてN個を抽出するのは、非復元抽出だと思いまして。

それともまた違った意味で意味不明ということでしょうか?

お礼日時:2021/10/03 12:31

ご質問に関してはNo.2と同意見。

ただ、

> 副反応が出た人の母数
> 母数が調査人数に近い

というあたりがまるで意味不明なのが、どうも引っかかります。「母数(parameter)」とは、ご質問の場合なら(p11, p12, p21, p22)のことですぜ?

 4項分布を持ち出す以上はベイズ流の話(この観測値が得られた、という条件下でのparameterの分布がナンタラカンタラ)でも始まるのかと思ったが、いや、そうでもないようで、フツーのχ2乗分布の話(性別と副反応の強さは無関係で、かつこの観測値が得られた、という条件下での観測値の分布がナンタラカンタラ)に帰着するっぽいですね。もちろん、χ2乗分布を持ち出す理由は、「性別と副反応の強さは無関係」という帰無仮説の検定をやるためです。
    • good
    • 1
この回答へのお礼

ここまでの経緯として実は十分統計量について勉強中に、2×2分割表の多項分布モデルの話が出てきました。

確率密度関数f((n_ij))∝(p11^n11)*(p12^n12)*(p21^n21)*(p22^n22)という式が出てきてから混乱しました。(∝は比例の記号とする)

χ2乗分布を用いた独立性検定の方法については知っております。しかしここでいうp11は何を分母として、何を分子とした確率なのかということを考え始めて混乱しました。

>「母数(parameter)」とは、ご質問の場合なら(p11, p12, p21, p22)のことですぜ?

確率ではないのですか?

お礼日時:2021/10/02 19:36

#1です。



コメントありがとうございます。
#2さんの回答とかぶってしまいますが、お許しください。

まず、与野党支持と投票の有無のクロス集計に対して、「4項分布に従うのが自然」という話は、観測(サンプル)の確率分布ではなく、観測数=母数という場合ではありませんか?

この場合は、縦比率×横比率で度数の期待値を計算して現在の観測の乖離がどうかと議論するいとまもなく、実態数が出ていますから。

このケースでは総計を100としたときの「各実態数の出現確率」を考えるのは「自然」ですが、統計ではなく集計ですね。

例えば、本校の小学1年生の女の子で赤いランドセルを使用しているのは1年生全体の何%か、ということ以上でも以下でもありません。



もし、この考え方をサンプリングデータに適用するのであれば、#2さんがおっしゃるように、「現在得ているサンプリング結果が得られる確率」に過ぎないと思います。
    • good
    • 1
この回答へのお礼

ご返信ありがとうございます。

>与野党支持と投票の有無のクロス集計に対して、「4項分布に従うのが自然」という話は、観測(サンプル)の確率分布ではなく、観測数=母数という場合ではありませんか?

となると確率で置く意味が分からなくなります。混乱してきました。

x11+x12+x21+x22=n
p11+p12+p21+p22=1

母数となる場合は、そもそもp11=x11/n、p12=x12/n、p21=x21/n、p22=x22/nとなるということですよね。ということは、p11、p12、p21、p22という変数を持ち出す理由が分からなくなります。

そして4項分布p(x)=(n!/x11!x12!x21!x22!)*p11^x11*p12^x12*p21^x21*p22^x22は何の確率を示しているのでしょうか?

そもそもこのp11、p12、p21、p22は確率なのでしょうか。観測数=母数ならp11もp12もp21もp22も単純に母数に対する割合を示しているだけの定数だと思うのですが。

お礼日時:2021/10/02 02:16

サンプリング結果の分布に対して


(100!/32!8!42!18!)*(p11)^32*(p12)^8*(p21)^42*(p22)^18
という確率が考えられることは、正しいと思う。
だが、それを基に何が計算できるようになるというのだろう?
その式が示すものは、単に
現在得ているサンプリング結果が得られる確率であって、
サンプリングに関する知見。
p11, p12, p21, p22 の比率を推測する手段になり得るとは思えない。
    • good
    • 1
この回答へのお礼

>だが、それを基に何が計算できるようになるというのだろう?

私も正直分かりません。ただし以下の神戸大学のPDF資料では、十分統計量の考察を行う際に、この確率密度関数の式が出ています。(P14「例 2: 観測値が多項分布にしたがう場合」を参照)

http://www.math.kobe-u.ac.jp/crest-c/2009-09/Lec …

この資料の例でも街頭で100人に与野党のどちらを支持するか、投票に行くのかどうかということをアンケートを取っていますが、これもアンケートを次に取った人について

p11:与党支持でかつ投票に行く確率
p12:与党支持でかつ投票に行かない確率
p21:野党支持でかつ投票に行く確率
p22:野党支持でかつ投票に行かない確率

としていると思います。街頭にたくさんいる人の中から100人ランダムで抽出するということで、p11、p12、p21、p22は定数とみなせるのかなと思いますが、これは十分統計量を出すためだけに、このような設定をしているのかというのも謎ではあります。

お礼日時:2021/10/01 01:08

前半部分への回答です。



2×2分割表は2項×2項の同時確率分布です。

4項分布というのは、4面サイコロ(鉛筆転がしの4面版)のように、生起確率の和が1になるような離散分布です。

簡単のために、3項分布(三角柱の鉛筆転がし)を考えます。これは3次元座標の各軸の1を結んだ正三角形の面内分布になります。x+y+z=1という平面を満たします。

4項分布は4次元の超三角形の面内分布になります。
    • good
    • 1
この回答へのお礼

>2×2分割表は2項×2項の同時確率分布です。
それについてですが、2つの事象が独立である場合は2項×2項と考えられるかもしれません。

ただし、実は以下の神戸大学のPDF資料のP14「例 2: 観測値が多項分布にしたがう場合」というところでは、与野党支持と投票の有無のクロス集計に対して、「4項分布に従うのが自然」ということで記載されております。2つの事象が独立とみなせない場合は4項分布となるのではないでしょうか?

http://www.math.kobe-u.ac.jp/crest-c/2009-09/Lec …

素人で実は根本から発想の誤りがあるかもしれませんので、もし誤りがありましたら、どこが誤りかご指摘をお願いします。

お礼日時:2021/10/01 00:50

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング