5つの数値の比較に用いる検定方法について

Question

AからEまで（サンブル数は20-80とばらばらです）の5つのグループの値を比較して、
たとえば「Bが有意に多い」などと言うには、どのような検定を使えばいいでしょうか。
（これは、何かの母集団からのサンプルではなく、これ自体の比較です。）

二者間の数値の比較ならt検定だと思うのですが、t検定をAB間、BC間、･･･というように
使用してはいけないように記憶しています。（有意差が出やすくなると思います。）

エクセルやSPSSを用いて計算しようと思います。
ご指導よろしくお願いいたします。

yhr2 · Accepted Answer

No.3です。No.3の「お礼」に書かれたことについて。

＞調べていると、下記のサイトが参考になるように思いました。
http://www.shiga-med.ac.jp/~koyama/stat/com-ph.h …

これは、いわゆる「分散分析」ですね。通常の「連続量」の分散ならこれでよいと思いますが、お持ちのデータは「はい」「いいえ」の2値データですよね？　
　リンク先の「パラメトリック手法」は使えず、「ノンパラメトリック手法」を使う必要があります。

質問の内容からだけでは詳しいことが分かりませんが、各グループの「条件」の違いによる「はい」の割合の変動が、有意なものかどうかを調べたいのですよね？

No.2の3番目のリンク先が、一番類似しているのではないかと思います。
http://imnstir.blogspot.jp/2012/02/excel.html

いずれにせよ、何らかの「期待値」（本来あるであろう「はい」の数）に対して、現実の「はい」の数が「誤差範囲」内のバラツキとみなせるか、統計的に「あり得ない」ほどまれな水準なのか、を検定するわけです。

おそらく「期待値」をどう定めるか、ということがポイントになると思います。
　各グループに「条件の違い」があるならその条件に着目するのがよいでしょうが、何が相違要因か不明なら、たとえば全調査データから「トータルの「はい」の比率」を求めてそれを「期待値」とするようなやり方ではどうでしょうか。
　　トータルの「はい」の数：135
　　トータルのサンプルの数：212
　　全体の「はい」率＝ 0.673

各グループの「はい」の期待値として、そのグループのサンプル数に「トータルの「はい」の比率」をかけて、本来あると予想される「はい」の期待値を設定し、それと現実の「はい」の数との差から、カイ2乗の「ｐ値」を求める、というやり方です。
　
　グループAの「はい」の期待値：20*0.673=13人（「いいえ」の期待値は7人）
　グループAの「はい」の実測値：12人

グループBの「はい」の期待値：28*0.673=19人（「いいえ」の期待値は9人）
　グループBの「はい」の実測値：15人

グループCの「はい」の期待値：80*0.673=54人（「いいえ」の期待値は26人）
　グループCの「はい」の実測値：56人

・・・

期待値として、全体の平均ではなく、ある特定のグループ（たとえば時系列的に「最初」にとったグループとか、最も標準的な条件のグループとか）の「「はい」率」を用いることも考えられます。
　何と何を区別したいのか、何を影響を見たいのか、ということから決める必要があると思います。

yhr2 · Answer

No.2です。

＞わたしがしなければならないのは、「はい」のデータを
5つのグループで比較すること、なのです。

「はい」以外の人を、すべて「いいえ」として処理してみてはいかがですか？　「はい」か「いいえ」の２値データですから。

yhr2 · Answer

No.1です。「補足」に書かれたことについて。

連続分布のパラメトリックなデータではなく、「該当するか否か」というデータ、いわゆる「カテゴリーデータ」ですね。
　その場合には、「標準偏差」というものは計算しようがありません。各グループの「該当率のパーセンテージ」や「得点」を、グループ間で平均したり、その平均からのグループの偏差を計算しても、有効なデータは得られないと思います。

そういった、「カテゴリーデータ」間の比較であれば、「該当率」の期待値や、1つのグループを「標準的な該当率」と仮定して、それと同じ傾向を持ったグループかどうかを検定する「ピアソンのカイ2乗検定」などを試してみてはいかがでしょうか。
　私も、それほど詳しくはないので、下記のようなサイトや専門の文献などを参考にしてください。
https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4%E4%BA%8C%E4%B9%97%E6%A4%9C%E5%AE%9A
http://www.koka.ac.jp/morigiwa/sjs/les11001.htm
http://imnstir.blogspot.jp/2012/02/excel.html

yhr2 · Answer

「検定」などと難しいことを考えずに、各グループの「平均」と「標準偏差」を求めて、各々の平均値が、例えば「２σ」以上離れていれば「差異あり」、それ以内なら「差異なし（同じ特性を持っている）」と判断すればよいのではありませんか？

「２σ」を「１σ」にするか「３σ」にするかは、どの程度の信頼度で判定するか（検定でいうところの「信頼区間」）ということで決めればよいと思います。
　正規分布であれば、「±1σの範囲内に68.3％が入る」「±２σの範囲内に95.5％が入る」「±３σの範囲内に99.7％が入る」ということであり、「検定」も結局はこの性質を利用しているのですから。

どうしても「検定」でやりたいのなら、各２つのグループ間で「ｔ検定」をやればよいと思います。目的にもよりますが、2つのグループ間を個別に「差異あり、差異なし」と判定したいなら、「使用してはいけない」ということはないと思います。

5つの数値の比較に用いる検定方法について

No.3です。

No.2です。

No.1です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング