急いでいます！

統計の質問です。フィッシャーの正確確率検定？コクランのQ検定？それとも？

締切済

質問者：arashin
質問日時：2024/02/05 13:06
回答数：3件

AIに入力画像が「A菌属かB菌属か」を分類させる2値分類をしています。
4群（菌①、菌②、菌③、菌④）あり、それぞれが、AかB菌属に所属する菌種で、属分類（AorB）の解答正解精度を検証しています。
各群毎に判定にかけた菌画像は80~200枚と群毎に様々
4群の正解率の平均値が（菌①82％, 菌②90％, 菌③93％, 菌④61％）でした。
差があるか否かを示したいと考えましたが、手法の選択に自信が持てず困っております。

「比率の検定？」「3群以上」「群間に対応無い」→フィッシャーの正確確率検定？
この考え方で大丈夫でしょうか？よろしくお願い致します。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

最新から表示
回答順に表示

No.3

回答者： stomachman
回答日時：2024/02/10 11:51

それぞれのデータは [どの群に属するか(第1群 or 第2群 or 第3群 or 第4群), 判定が正答だったかどうか(Yes or No), 正答は何か(A or B)] という情報の組でできている、と見ることができます。

そういうデータがどっさりある。

[1]フィッシャーの正確確率検定の考え方では：
　帰無仮説H1「判定が正答である確率は、第4群に属するかどうかによらない」を考えます。すると、データに含まれている「どの群に属するか」という情報は全く意味がないということです。H1によれば、[判定が正答だったかどうか(Yes or No), 正答は何か(A or B)] という情報だけを含んでいるデータを用意して、これらを4つの群にランダムに割り振ることによって「どの群に属するか」の値を決めて書き込んだに過ぎないのだ、というのがH1の主張です。
　第4群に属するデータがN個あるとします。全データにおける「判定が正答だった比率（正答率）」Rと、第4群のデータにおける「判定が正答だった比率（正答率）」rに注目します。H1によれば第4群に割り振られるかどうかはランダムに決まるので、rとRはもちろん同程度なのだけれども、偶然のせいでズレが生じるでしょう。
　そのズレの分布は以下のようにして理論的に算出できます：すなわち、全データM個からN個を選ぶすべてのやり方について、選んだデータ（第4群になったもの）の正答率rの分布φ(r)を調べれば良い。
　φ(r)を使ってテスト（検定）が行えます。すなわち、もし、実測した「第4群の正答率」がこの分布φ(r)において極めて珍しいものであるなら、帰無仮説H1は棄却できると判定され、H1の否定が主張できます。（さもなければH1は棄却できず、従ってH1もH1の否定も、どちらも主張できません。）
…というのがフィッシャーの正確確率検定の考え方です。
（おわかりの通り、データの「正答は何か」という情報はH1の検討においては全く関係ありません。）

[2] このテストによって、H1が棄却できた場合について考えます。すると、その否定「第4群に属しているデータの正答率は、そうでないデータの正答率とは違う」が言える。でも、「その理由はなんだろうか」と考えること自体は統計の問題ではありません。
　それはそうなんだけど、でも、真っ先に考えられるのは理屈 T1「正答がAであるものを正しく判定する確率と正答がBであるものを正しく判定する確率は異なっていて、かつ、第4群に属しているデータの正答がAである確率は第4群に属していないデータのそれとは異なる、ということであれば、H1の否定が成り立つのは必然だよね」ということでしょう。
　そこで、帰無仮説H2「正答がAであるものを正しく判定する確率と、正答がBであるものを正しく判定する確率は同じだ」を考えます。これは、正答がAであるかBであるかは、正答するかどうかどうかとは全く関係がない、という仮説です。以下、H1の検討と同じように考えればよい。すなわち：
　全データのうちで正答がAであるデータがK個あるとします。H2によれば、全データM個からランダムにK個を選んでそれらにAというラベルを貼り付けたに過ぎない。Aというラベルを貼られたデータの正答率の分布はどうなるか、を調べれば、帰無仮説H2が棄却できるかどうかがわかる。それには全ての選び方を調べてみれば良い。（このとき、データがどの群に属するか、という情報は関係ありません。）
　さらに、帰無仮説H3「第4群に属しているデータのうち、正答がAである確率は、第4群に属していないデータのそれと同じだ」も全く同じようにして調べられます。（今度は、判定が正答だったかどうか、は関係ありません。）

[3] H1が棄却されたけれども、H2かH3のどちらかが棄却できない、ということが生じた場合には、T1が「H1の否定が成り立つ理由の説明」になっているかどうか、はっきりしません。T1を肯定することも否定することも根拠がない、という状況です。そこで、もっと他のハッキリした理由がないか、それを探したくなるわけですが、それはもちろん統計の問題ではないし、またおそらく、すでに持っているデータ（情報の組）だけでは、なんともならんでしょう。

[4] ところで、H1, H2, H3についてフィッシャーの正確確率検定をやる際に必要な「データを選ぶすべてのやり方について、ズレの分布を調べる」という大変な作業は、実はあらかじめ理論的に終わらせておくことができる。それがχ²分布です。すなわち：
　属性Pについてa通りに（重複なく）分類され、また、Pとは独立の属性Qについてもb通りに（重複なく）分類される非常に沢山のデータ(P[m], Q[m]) (m=1～M)について、その頻度表
　　X[i,j] = （P[m]=iかつQ[m]=jであるデータの個数）
を作ると、
　　p[i] = Σ[j=1～b]X[i,j]
　　q[j] = Σ[i=1～a]X[i,j]
　　χ² = Σ[i=1～a]Σ[j=1～b] (X[i,j] - p[i]q[j]/M)² / (p[i]q[j]/M)
とするとき、χ² は自由度(a - 1)(b - 1)のカイ二乗分布に従う。

　これは数学の定理です。たとえば[1]の帰無仮説H1「判定が正答である確率は、第4群に属するかどうかによらない」を考える時にこの定理を利用するにはどうするか。それには、「このデータmは第4群に属するか」について、YesならP[m]=1かNoならP[m]=2とし、この「データmでは判定が正しかったかどうか」について、YesならQ[m]=1, NoならQ[m]=2とする。そして頻度表X[i,j]を作ってχ² を計算する。すると、得られたχ² は自由度(2 - 1)(2 - 1)=1のカイ二乗分布に従うはずである。…というわけで、簡単にテストができる。

- 0
- 件

通報する

No.2

回答者： kamiyasiro
回答日時：2024/02/05 16:46

4群の正解率の「平均値」が菌①82％, 菌②・・・とおっしゃいますが、同じ菌①画像を二値判定させても、毎回答えが違うから平均を取ったということですよね。

平均を取る必要があるのは、
①違う視野を見ているからですか？倍率は同じですか？
②閾値を毎回変更しているからですか？
③学習が進んでいるからですか？

これらは系統誤差として影響を及ぼします。

「菌④の誤判定が多い」ことが、偶然なのか、あるいは有意な差なのかということを知りたいのでしょうが、それを論じる前に、実験から系統誤差を取り除かないといけません。

偶然か有意な差かという検定は、偶然誤差を基準に行いますので、それには変動が、群の違い以外は偶然誤差のみに支配されていることが重要です。

あと、この母比率の検定はカイ2乗検定になると思います。

- 0
- 件

通報する

No.1

回答者： stomachman
回答日時：2024/02/05 14:39

> 大丈夫でしょうか？

全然大丈夫じゃない。ご質問からは「何と何をドウ比べたとき差がある」という話なのかすらもわからんですから。

　帰無仮説「何と何をコウ比べたとき、差がない（ランダムだ）」を明確に立てなきゃ何も始まりません。（その一番重要な所を明確にしないままイランことばかり語ってるようでは、あーこりゃ全然大丈夫じゃないな、とわかるわけです。）で、帰無仮説から理論的に演繹した分布と実際の観測結果とを比べて、「もしこの帰無仮説が成立している（だから、予測した分布が実現している）なら、こんな観測結果が出る確率pはコンナニ小さい。だから、<この帰無仮説を棄却するのが適切だ>という方に賭けよう」と判断するのが、検定ってことです。

- 0
- 件

通報する

この回答へのお礼

お返事いただきありがとうございます。
説明と論立てが下手でご迷惑をおかけしました。
体系的な統計学を学んだことは無く、実務で迫られ窮しての質問です。どうぞご容赦下さい。

まずは補足します。
群は、別々の20株（株あたり×画像30枚）で構成されていて、群は20個の株毎平均値の集団を構成されています。（群によって株数が少し違います）

種と条件が同じでも株によって形態が異なるので株を集めて1群を作り、その群平均や分布を比較することが実務に必要であるという前提があります。
個々の画像があっているかではなく、株の正解平均値自体がこの実験（仕事）で鑑別基準とされるので「株の平均正解率を一つの変数」として扱っています。

No１様
>帰無仮説から理論的に演繹した分布と実際の観測結果とを比べて、「もしこの帰無仮説が成立している（だから、予測した分布が実現している）なら、こんな観測結果が出る確率pはコンナニ小さい。

→拙いながらも返答致します。
培養条件がAIの性能に差を与えるのか調べるという実験です。
「群による成果の差は未知」でなので、「差が無いことを出発点にして、差があればその理由を調べてる」と考えました。その際の証明が確率的な差の証明なのかと考えました。

最初の解答を私の今回の検討に落とし込むと、このような感じになったのですが自信はないです。
今後の指針にしたいのでご教示ください。