統計の方法を教えてください

Question

ある植物の種には、「丸」と「しわ」の形質があります。
品種1では、10個体中、「丸」が3個体、「しわ」が7個体出現しました。
品種2では、10個体中、「丸」が8個体、「しわ」が2個体出現しました。
品種3では、10個体中、「丸」が9個体、「しわ」が1個体出現しました。

品種2と品種3では、品種1に比べて「丸」が多く出現した、
ということを統計的に言いたい場合、どのような検定を行えばよいか教えて下さい。
よろしくお願い致します。

kamiyasiro · Accepted Answer

kamiyashiroです。

●誤解について。

ご質問は、片側検定ありきで書かれていましたから、
・品種改良実験であり、品種2・3は新品種だと、
・品種１は旧品種で、30％の収率は、従来からその前後の値であり比較値として受け入れられる。
と誤解しておりました。
No.3にも「基準となる品種１の比率を正しいと信じて」と、キチンと断りを入れています。

●私の新たな提案について。

最初の３者間の違いですが、比率だからフィッシャーの正確確率検定がベストと思いますが、これは普通の統計ソフトには入っておらず、JMPでさえもJMP-Proにしか入っていなかったと思います。手計算でできる手法ではありません。

そこで、個数を使ってピアソンの適合度検定を行えば良いかと思います。

そして、２品種間の差を明らかにしたいということが目的なら、３者の違いを含めて多重比較が必要になりますが、多重比較の方法はボンフェローニで良いと思います。

また、データを採取する前に大小関係の仮説が無かったということですから、二つの母比率の差のｚ検定は「両側検定」でやるべきだと思います。
さらには、品種２と品種３の比較も、建前上、怠ってはならないと思います。

片側検定ありきの話とは、大幅に変わります。
頑張って下さい。

●No.4の「平方和が分解できない」の言い訳。

計算できなければ、繰り返し数不揃いの一元配置分散分析は世に無いです。それはもちろん知っています。ただし、面倒な手続きが必要です。
ハンバーガーは、それを説明していないので、「（今の知識じゃ）分解できないでしょ」と書いたわけで、断りもなく練習問題に出す姿勢が教育者として問題だというつもりで言ってしまいました。
（私は企業内で社内教育の講師をしているのですが、そんなことをしたらアンケートでボロカスに書かれてしまいます。はっきり言って、大学の先生に対しひがみがあります）

gas2021様、

別件で、トランケートの方法を教えて欲しかったのに、閉じられてしまいましたね。この件、岩崎学先生の「不完全データの統計解析」がありましたので、それを読んでみます。くだんの件は、総ケースが71という事実は動かせないのがネックだと思っています。未観測部分が観測部分に繰り込まれているということです（そこを詳しくお伺いしたかったのに・・・）。

qas2021 · Answer

> １）上記について、独立性の検定（カイ二乗検定）又はFisherの正確確率検定は、品種1と２、品種１と３で行うのでしょうか？

いいえ、品種1~3をすべて同時に比較します。

> ２）’その後、二標本ずつ多重比較を行う’という箇所が分かりにくいので、もう少し詳しく教えて頂けないでしょうか？　具体的な多重比較検定の名称を教えて頂けないでしょうか。
> ３）’最初から二標本ずつ多重比較を行う’とは、どのような多重比較検定法がありますでしょうか？

既に
> 既に名前のあがっている z検定、t検定の他、Fisherの正確確率検定があります。
と記載しました。
個々の検定の有意水準は全体の有意水準を満たすように調整すれば良いだけです。

qas2021 · Answer

いくつか気になった点があったので回答します。

> 品種2と品種3では、品種1に比べて「丸」が多く出現した、
> ということを統計的に言いたい場合

これはデータを採る前からこうすると決めていたのですか？
それなら良いのですが、そうでなければ、３つの標本の「丸」の出現する母比率が全て同じかどうかを検定すべきです。

その場合は、独立性の検定（カイ二乗検定）又はFisherの正確確率検定を行い、その後、二標本ずつ多重比較を行うか、或いは、最初から二標本ずつ多重比較を行うべきです。
（二標本ずつの検定は勿論両側検定で行います）

なお、分散分析は、「丸」なら1、「しわ」なら0というデータが (3×10) 個あると考えればできなくもありません。
ただし、サンプルサイズも小さいし、通常は、カイ二乗検定やFisherの正確確率検定が使われるのでお勧めしません。

それと、No.4さんが「平方和の分解ができない」と記載されていますが、繰り返し数が不揃いでも平方和の分解はできます。

あと、品種1の出現率を0.3で固定して検定しようしていますが、これはもう一度試験をしても0.3となるのでしょうか？
サンプルサイズが十分あればそれでも定数とみなしても問題は少ないでしょうが、今あるデータのサンプルサイズはたったの10ですよね。
さすがに、定数とみなすのは無理があるのではないでしょうか？

> 品種2と品種3では、品種1に比べて「丸」が多く出現した、
> ということを統計的に言いたい場合

これがデータを採る前からこうすると決まっているのであれば、品種1-2間と品種1-3間の片側検定で多重比較をすることになります。
方法としては、既に名前のあがっている z検定、t検定の他、Fisherの正確確率検定があります。
（前者の二つは、サンプルサイズが小さいので、正規分布近似がうまくいかないかもしれません）

kamiyasiro · Answer

もしかして、学校の課題ですか？
そう思ったから、直接この問題の数値で回答しなかったんだけど・・・。スイマセン。

学校の先生は「二つの母比率の差のｚ検定」を２ケースやらせるつもりかしらねぇ。そこが興味深いです。

だとすると、
・ｎ数が十分大きくない。
・２ケースの検定で品種１のデータを使い回すため、それらの検定は従属になる。よって多重比較が必要。

となり、間違いであると言えます。

「二つの母比率の差のｚ検定」もあのＨＰに出ているので、やってみて両論併記で提出しても良いかもです。

文科省が突然、統計に力を入れ始めて、学生時代にやってなかった先生達がにわか勉強で教えているんですよ。

～～～～～～～～～～～～～～～～～～～～～～～～～～

品種２と品種３をプールして、p＝3/20，n＝20で、品種１との「二つの母比率の差のｚ検定」を１回だけやるのかしらねぇ。

でも、その前に、品種２と品種３とには「差があるとは言えない」と言っておく必要があるから、結局、多重比較になるんですが・・・。

～～～～～～～～～～～～～～～～～～～～～～～～～～

もしも課題だったりしたときは、興味があるので、解答を教えて下さいな。
でも夏休み後か。
そのときは、この課題の正解は〇〇と言われたけど、これっておかしくないですか、という質問を投げて下さいな。

～～～～～～～～～～～～～～～～～～～～～～～～～～

ちなみに一元配置の分散分析は無理です。繰り返しが無いからです。
あと、分散分析をする場合は、ロジット値に直すこともお忘れなく。
（全平均を引く場面があるから。「平均」ですよ。比率は足し算できないが、対数は対数加法性があるからOKです）

詳しくは「計数値の分散分析」で検索。
累積法ってのが出てくるかもしれませんが、無視で。

余計な口出ししてスミマセン。

kamiyasiro · Answer

No.7です。

間違い訂正。

誤）じゃあ、左側のときは下側だから、累積確率0.25じゃないか
↓
正）・・・・0.025じゃないか

お恥ずかしい。

kamiyasiro · Answer

No.6です。

ご質問のケースは、片側検定だから使ってもらっては困るけど・・・、

両側検定のときの、F(n1，n2，α/2) の、エクセルに代入する累積確率は、0.975です。
つまり、左と右の両方に、2.5％ずつの棄却域を設ける形です。

じゃあ、左側のときは下側だから、累積確率0.25じゃないかと言われるかもしれないが、そもそもF検定は、どんな検定であっても上側検定になるように構築されていることを忘れないで下さい。

両方とも、0.975で良いです。

kamiyasiro · Answer

No.5です。

＞ T1とT2を用いる場合の違い

横軸を０～１の軸として、比較値0.3の位置に何らかの誤差範囲をもった基準の分布を考えています。その誤差範囲は未知なので、観測値のものを使います。ここまでは前提です。

さて、検定対象がその誤差範囲の右側にある時に用いるのがT1、左側にある時に用いるのがT2です。

＞ F(n1、n2、α)はどうやって求めるか

エクセルはありますか？
エクセルで、F(26，18：0.05)を求めてみましょう。

あるセルに、
＝F.INV(0.95, 26, 18)
と打ち込みます（イコールを忘れないでね）。すると、
2.133502139
と表示されます。

エクセルではαは裾野確率ではなく、累積確率にするのがポイントです。

kamiyasiro · Answer

No.3です。
コメント、ありがとうございます。

１）F検定を行う場合、品種1と2、品種1と3の間で、それぞれ別々に行うのですか？多重比較をする必要はないのですか？

別々に行います。多重比較は必要ありません。

多重比較が必要な場合は、全体を分散分析し差が有意だった時に、引き続きどことどこの間に差があるか、継続して調べるような、同じサンプルを使い回すときに必要になります。

今回、私が提案した検定は、品種Aは検定対象ではなく比較値の扱いです。
品種Bを検定対象とする検定と、品種Cを検定対象とする検定は、各々のサンプルを使用し互いにサンプルの重複はなく独立した検定ですので、多重比較は不要です。

２）品種1と品種２でF検定を行う場合、入力する（比較する）具体的な数値を教えてください。よろしくお願い致します。

それでは、先に挙げた参考文献に出ている事例を載せます。
そして、かのサイトでは書かれていなかった、両側検定と片側検定についても書いておきます（今回は片側検定ですが・・・）。

事例
「21人中12人が、ある化粧品ブランドを知っていた。この知名率は65％より「低い」と言えるか。有意水準5％で回答せよ」

帰無仮説H0：Ｐ＝0.65
対立仮説H1：Ｐ＜0.65
（Pが大文字なのは、観測値の推定上の母比率だから）

調査結果：ｎ＝21，ｐ＝12／21＝0.57，P0＝0.65
（Pの添え字はゼロ、ナルハイポセシス帰無仮説の値ということ）

～～～～～～～～～～～～～～～～～～～～～～～～～～

比較値の分布の左側の検定だからT2を用いる。
（ご質問者様はT1を使います）

m1＝2＊21＊0.57＋2＝26
m2＝2＊21＊(1ー0.57)＝18
（ご質問者様はn1,n2を計算して下さい）

これより、T2は、

T2＝(18＊0.65)／{26＊(1ー0.65)}＝1.29

棄却域は、

F(m1，m2：α)＝F(26，18：0.05)＝2.134
（これは、計算ソフトを使って下さい。数表には載っていないかも）

結果

T2＝1.29 ＜ 2.134 なので、帰無仮説H0は棄却できない。
（F検定は、常に上側検定で行います。F値は０以上で期待値は１です。下側だと狭すぎて精度が出ないのです）

結論

知名率は0.65より低いとは言えない。

両側検定のときは、

T1 ＞ F(n1，n2：α/2)
T2 ＞ F(m1，m2：α/2)

のいずれかの成立を調べれば良いです。

kamiyasiro · Answer

ところで・・・、

No.1様がリンクを張られた2番目はハンバーガー統計ですね。
ここの「通過テスト」ですが、これって、「繰り返し数不揃いの分散分析」ですよね。
平方和の分解ができないです。

目をつぶって、手順通りにやれってか？
だったら、片方はｎ=１でもＯＫなの？

この著者（向後千春氏）、大丈夫かなぁ。
サイトの内容、怪しいよね。

ご質問のケースも、品種A・Ｂ・Ｃとも10個ずつ調べていますからＯＫですが、不揃いだと解析は難しくなります。

なお、「母比率の比較値との差のＦ検定」では、ｎ数は検定対象のｎ数で、基準となる品種Ａは、比較値ですからｎ数は関係ないです（本来は無数にあって欲しいところですが・・・）。

kamiyasiro · Answer

「母比率の比較値との差のＦ検定」です。

検定とは、「もし差が無いと仮定しても（帰無仮説）、この観測を何度も繰り返したら、偶然によってこんな範囲が出てくるハズ（誤差の信頼区間）。この偶然の範囲を越えたら帰無仮説を棄却して対立仮説が有意だと考えよう」というものです。

問題のケースは、母集団未知のうえ、この偶然誤差を計るにはｎ数が少な過ぎます（n＜30）。

つまり、やろうとしていることは「二つの母比率の差の検定」ですが、ｎ数が少ないため、パラメトリック検定（分布のパラメータを仮定して解く方法。一般的には正規分布近似をするのでμとσが必要）が出来ません。なぜなら、No.2様がおっしゃるように、σが信頼できないからです。

なお、ｎが十分大きい時には、二項分布を正規分布近似してｚ検定を行います。近似には標本の標準偏差ｓを使っていないためスチューデントのｔ分布にはなりません。そのため比率の検定ではｔ検定は用いません。（No.1の訂正）

結論として、基準となる品種１の比率を正しいと信じて、「母比率の比較値との差のＦ検定」というノンパラメトリック検定を行うことになります。

式は面倒なので書きませんが、下記サイト↓の中段くらいに書いてあります。目次から飛べます。
ただし、両側検定、片側検定のやり方に関しては記述が不足しています。

https://power-of-awareness.com/entry/2022/09/13/050000

このサイトには、なぜそれで検定できるのか書いてありませんが、残念ながら和書には適切なものが無かったかと思います。
私にも調べる手段がありませんので、それについては他の回答者さんに委ねます。

参考文献
上田拓治（2009）『44の例題で学ぶ統計的検定と推定の解き方』，オーム社

上記サイトは、本書の丸写しです。
この本には、両側検定、片側検定のやり方も書いてあります。
また、具体的数値を用いた例題もあります。

統計の方法を教えてください

kamiyashiroです。

> １）上記について、独立性の検定（カイ二乗検定）又はFisherの正確確率検定は、品種1と２、品種１と３で行うのでしょうか？

いくつか気になった点があったので回答します。

もしかして、学校の課題ですか？

No.7です。

No.6です。

No.5です。

No.3です。

ところで・・・、

「母比率の比較値との差のＦ検定」です。

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング