プロが教えるわが家の防犯対策術!

確率についての質問です。内容は独立性の検定についてです。
統計学の内容です。

BellCurve「統計Web」
内容:独立性の検定―最もポピュラーなカイ二乗検定
URL:https://bellcurve.jp/statistics/blog/14038.html

このサイトを読んでいましたが、一つ質問があります。

「2つの事象AとBについて、その同時確率P(AB)がAの確率とBの確率との積となるならば、すなわち、P(AB)=P(A)・P(B)となるならば、AとBは独立であるという」

と書かれていて、その下に具体例があります。その具体例は大学生の美容室と理容室の利用について性差があるかという内容ですが、

ここでいう事象Aが「女性である」となっています。つまりP(A)というのは「女性である確率」を指すわけですが、そこの解釈につまづいています。

「女性である確率」や「男性である確率」という表現でつまづいています。その違和感について言葉で説明するのが難しいのですが、男性か女性かというのが確率で扱うことに違和感を感じています。

アンケートの取り方によっては男性2割、女性8割にもなりますし、男性3割、女性7割にもなります。

どう解釈すれば違和感なく「女性である確率」や「男性である確率」を理解できますでしょうか?つまり、どういう理解でいれば良いでしょうか?

質問者からの補足コメント

  • 質問の背景も追記します。

    「性別によってある病気が重症化率が違うか」ということについて2元分割表の多項分布モデルを考えた際に、男性である確率をp、重症化する確率をqとして確率密度関数を求めた際に

    男性で重症化する人数:n_11
    男性で重症化しない人数:n_12
    女性で重症化する人数:n_21
    女性で重症化しない人数:n_22

    となる確率は2つの事象が独立している際に

    f((n_ij);(p,q))∝(pq)^(n_11)*{p(1-q)}^(n12)*{(1-p)q}^(n21)*{(1-p)(1-q)}^(n22)
    となると思います。

    しかし、pはそもそも定まっているのではないかと考えていました。ただ回答を踏まえると、そもそもこの確率密度関数は「分割表のように数値が出される確率」であって、独立性の話とはまた違うのかなと考察しています。

      補足日時:2021/09/28 14:17

A 回答 (3件)

恐らくですが「男性(or女性)である確率」と言うのを「私が男性である確率」「大島優子が女性である確率」と言った具合に受け止めるからおかしく感じるのでは? そう受け止めているとしたら確かに「確率もヘッタクレもないじゃん! もう決定してるじゃん!」と言う話になるのはむしろ当然でしょう。

なので理容室の話で言うならば、例えば「○○理容室に次に来店するのが男性(or女性)である確率」と言ったものを考えるならば「男性(or女性)である確率」と言う表現に違和感は持たなくなると思います。
    • good
    • 1
この回答へのお礼

>理容室の話で言うならば、例えば「○○理容室に次に来店するのが男性(or女性)である確率」と言ったものを考えるならば

確かにそう考えるならば違和感は感じませんね。

アンケートの事例でも、次にアンケートに回答(またはアンケートを提出)する人が男性である確率と考えれば違和感は感じませんね。

あとは全数調査で考えていたから混乱していたのかもしれません。そもそも確率を持ち出す必要のない集団ということです。

ある大人数の集団で男性が6割、女性が4割で構成されていたとしたら、次にアンケートに男性が回答する確率が3/5となるみたいに考えれば、男性である確率という表現にも納得はいきます。

お礼日時:2021/09/28 16:06

No.1 です。

「お礼」に書かれたことについて。

>つまりここでの男女の確率というのは、あくまで「観察した人達の集団から無作為に抽出した時の確率」という理解でよろしいのでしょうか?

はい。

>例えば、男女100人のアンケートを考えた際に、男30人、女70人の場合は男である確率は3/10であるといったことでしょうか?

はい。

「確率」という言葉がしっくりこないのなら、単に「比率」とか「構成率」とか「○○率」と呼べばよいと思います。「全部足し合わせると 1 になる」という条件さえ満たせば。
    • good
    • 1
この回答へのお礼

素早いご返信をありがとうございます。比率とすれば理解が出来ます。

ということは、独立性検定を行う際は以下の流れになるのでしょうか。同じようなことを聞いているかもしれませんが、最後に確認をしたいのでお願いします。

例えば「性別によってある病気が重症化率が違うか」ということを調べようとしたときに適当に罹患したことがある男女1000人に調査した結果、

・男300人、女700人だった場合は、男である確率が3/10として独立性の検定を行うこととする

・男400人、女600人だった場合は、男である確率が4/10として独立性の検定を行うこととする

というように調査結果によりそこの確率を変えていくという認識でよろしかったでしょうか?

お礼日時:2021/09/28 12:53

「Aの確率」を「ある事象がAであることを観測値から計算したもの」と考えればよいのでは?


未知の母集団の母数(平均値や標準偏差)を知ろうと思ったら、そうするのが当然ですよね?

製品の中から1,000個のサンプルを採って15個の不良品があった場合には、「不良確率」(の最もありそうな値)を「0.015」と考えます。

ブサイクなサイコロを振って、1の目が出る回数を観測して100回中21だったら、その「ブサイクなサイコロ」の「1の目の出る確率」(の最もありそうな値)は「21/100」とみなしますよね?
「サイコロなんだから 1/6 のはずだ」と考える方がおかしいです。

それと同じではありませんか?
「通行人」や「入店者」を観察して、その「男女」を調べたものが「男性の確率」「女性の確率」(の最もありそうな値)です。
「男性」が 1/2 のはずだ、と考える方がおかしいです。

「通行人」や「入店者」を観察するのですから、「世の中全体から無作為に抽出する」というのと違って当然です。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます。

つまりここでの男女の確率というのは、あくまで「観察した人達の集団から無作為に抽出した時の確率」という理解でよろしいのでしょうか?

例えば、男女100人のアンケートを考えた際に、男30人、女70人の場合は男である確率は3/10であるといったことでしょうか?

お礼日時:2021/09/28 12:38

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!