プロが教えるわが家の防犯対策術!

AからEまで(サンブル数は20-80とばらばらです)の5つのグループの値を比較して、
たとえば「Bが有意に多い」などと言うには、どのような検定を使えばいいでしょうか。
(これは、何かの母集団からのサンプルではなく、これ自体の比較です。)

二者間の数値の比較ならt検定だと思うのですが、t検定をAB間、BC間、・・・というように
使用してはいけないように記憶しています。(有意差が出やすくなると思います。)

エクセルやSPSSを用いて計算しようと思います。
ご指導よろしくお願いいたします。

質問者からの補足コメント

  • どう思う?

    さきほどご助言いただき、エクセルでデータの整理をし始めました。
    内容を書きませんでしたのでおわかりになりにくかったと思いますが、
    グループの値とは、あることに該当するか否か、の人数です。
    その該当者数を比較しています。

    本来は実数で計算しなければならないと思いますが、各グループに含まれる人数が
    不ぞろいですので、該当者数の比較はパーセンテージ値でないとできません。
    (意味的には、「該当者の割合」を見ることになります。)

    違和感があるのですが、5つのグループの該当者のパーセンテージ値の平均を算出し、
    その差が2SDのところに差を指摘する、というやり方でも構わないのでしょうか。

    引き続きご指導いただけましたら幸いです。
    よろしくお願いいたします。

      補足日時:2015/12/12 15:52
  • どう思う?

    再び補足です。

    先ほどのパーセンテージ値に違和感があったのですが、たとえば次のような
    方法ではいかがでしょうか。

    該当する=1点、該当しない=0点、として各グループを採点し、人数で割って
    グループごとの平均値とする。
    →その平均値を基準に、±2SDを超える値のグループを、離れている、差のある
    グループとみなす。

    結果としてはあまり変わらない気もしますが、こちらのほうがいいように思います。
    いかがでしょうか。
    ご意見をお聞かせいただければ助かります。
    よろしくお願いいたします。

      補足日時:2015/12/12 16:06

A 回答 (4件)

No.3です。

No.3の「お礼」に書かれたことについて。

>調べていると、下記のサイトが参考になるように思いました。
http://www.shiga-med.ac.jp/~koyama/stat/com-ph.h

これは、いわゆる「分散分析」ですね。通常の「連続量」の分散ならこれでよいと思いますが、お持ちのデータは「はい」「いいえ」の2値データですよね? 
 リンク先の「パラメトリック手法」は使えず、「ノンパラメトリック手法」を使う必要があります。

 質問の内容からだけでは詳しいことが分かりませんが、各グループの「条件」の違いによる「はい」の割合の変動が、有意なものかどうかを調べたいのですよね?

 No.2の3番目のリンク先が、一番類似しているのではないかと思います。
http://imnstir.blogspot.jp/2012/02/excel.html

 いずれにせよ、何らかの「期待値」(本来あるであろう「はい」の数)に対して、現実の「はい」の数が「誤差範囲」内のバラツキとみなせるか、統計的に「あり得ない」ほどまれな水準なのか、を検定するわけです。

 おそらく「期待値」をどう定めるか、ということがポイントになると思います。
 各グループに「条件の違い」があるならその条件に着目するのがよいでしょうが、何が相違要因か不明なら、たとえば全調査データから「トータルの「はい」の比率」を求めてそれを「期待値」とするようなやり方ではどうでしょうか。
  トータルの「はい」の数:135
  トータルのサンプルの数:212
  全体の「はい」率= 0.673

 各グループの「はい」の期待値として、そのグループのサンプル数に「トータルの「はい」の比率」をかけて、本来あると予想される「はい」の期待値を設定し、それと現実の「はい」の数との差から、カイ2乗の「p値」を求める、というやり方です。
 
 グループAの「はい」の期待値:20*0.673=13人(「いいえ」の期待値は7人)
 グループAの「はい」の実測値:12人

 グループBの「はい」の期待値:28*0.673=19人(「いいえ」の期待値は9人)
 グループBの「はい」の実測値:15人

 グループCの「はい」の期待値:80*0.673=54人(「いいえ」の期待値は26人)
 グループCの「はい」の実測値:56人

  ・・・

 期待値として、全体の平均ではなく、ある特定のグループ(たとえば時系列的に「最初」にとったグループとか、最も標準的な条件のグループとか)の「「はい」率」を用いることも考えられます。
 何と何を区別したいのか、何を影響を見たいのか、ということから決める必要があると思います。
    • good
    • 0
この回答へのお礼

yhr2さん、

たいへん詳しく解説してくださり、どうもありがとうございました。

>各グループの「条件」の違いによる「はい」の割合の変動が、有意なものかどうかを調べたいのですよね?

そうなのです、「はい」と答える割合が、グループごとに違っているかどうかを
調べようとしています。
ただ、前に張り付けたリンクは、「はい」「いいえ」には使用できないのですね・・・
その代わりに、期待値を使用して推定する方法をご提案くださり、ありがとうございました。
これでやってみようと思います。

期待値についても、その決め方が決まっているわけではないことを初めて知りました。
これの±2SDを上限、下限にして、そこからはみ出るグループ(の有無)を特定したいと思います。

・・・今、統計は高校でも習うように伺いました。
yhr2さんは大学で統計を勉強されたのでしょうか。
独学では厳しいですが、仕事ですので頑張ってみます。
何度も何度も懲りずに教えてくださって、本当にどうもありがとうございます。

お礼日時:2015/12/16 16:23

No.2です。



>わたしがしなければならないのは、「はい」のデータを
5つのグループで比較すること、なのです。

「はい」以外の人を、すべて「いいえ」として処理してみてはいかがですか? 「はい」か「いいえ」の2値データですから。
    • good
    • 0
この回答へのお礼

再びご回答、どうもありがとうございます。

もちろん、「はい」以外の人は「いいえ」で処理しています。
ですので、扱うのは、「はい」の数でも「いいえ」の数でもいいのですが、
常識的に「はい」の数を扱っております。
ですので、

           A   B   C   D   E
「はい」の数    12  15  56  32  20
グループ全体数 20 28 80 54 30

のような感じの、グループ間の比較をしております。

調べていると、下記のサイトが参考になるように思いました。
http://www.shiga-med.ac.jp/~koyama/stat/com-ph.h …

お礼日時:2015/12/14 23:26

No.1です。

「補足」に書かれたことについて。

 連続分布のパラメトリックなデータではなく、「該当するか否か」というデータ、いわゆる「カテゴリーデータ」ですね。
 その場合には、「標準偏差」というものは計算しようがありません。各グループの「該当率のパーセンテージ」や「得点」を、グループ間で平均したり、その平均からのグループの偏差を計算しても、有効なデータは得られないと思います。

 そういった、「カテゴリーデータ」間の比較であれば、「該当率」の期待値や、1つのグループを「標準的な該当率」と仮定して、それと同じ傾向を持ったグループかどうかを検定する「ピアソンのカイ2乗検定」などを試してみてはいかがでしょうか。
 私も、それほど詳しくはないので、下記のようなサイトや専門の文献などを参考にしてください。
https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4 …
http://www.koka.ac.jp/morigiwa/sjs/les11001.htm
http://imnstir.blogspot.jp/2012/02/excel.html
    • good
    • 0
この回答へのお礼

yhr2さん、

ご回答、どうもありがとうございました。
貼り付けてくださったサイトを拝見いたしました。
たとえば3番目のサイトでは、「はい」「いいえ」のデータが比較されて
いるのですが、わたしがしなければならないのは、「はい」のデータを
5つのグループで比較すること、なのです。
参考書にも出ておらず、ネットでも探せませんでした・・・(T_T)。
もしyhr2さんに何かお心当たりがあるようでしたら、ご助言いただけますと
たいへん助かります。
いつも書き込んでくださって、本当にどうもありがとうございます。

お礼日時:2015/12/14 03:18

「検定」などと難しいことを考えずに、各グループの「平均」と「標準偏差」を求めて、各々の平均値が、例えば「2σ」以上離れていれば「差異あり」、それ以内なら「差異なし(同じ特性を持っている)」と判断すればよいのではありませんか?



 「2σ」を「1σ」にするか「3σ」にするかは、どの程度の信頼度で判定するか(検定でいうところの「信頼区間」)ということで決めればよいと思います。
 正規分布であれば、「±1σの範囲内に68.3%が入る」「±2σの範囲内に95.5%が入る」「±3σの範囲内に99.7%が入る」ということであり、「検定」も結局はこの性質を利用しているのですから。

 どうしても「検定」でやりたいのなら、各2つのグループ間で「t検定」をやればよいと思います。目的にもよりますが、2つのグループ間を個別に「差異あり、差異なし」と判定したいなら、「使用してはいけない」ということはないと思います。
    • good
    • 0
この回答へのお礼

ご回答、どうもありがとうございました。

以前、複数の対象のうちの二者間をt検定で測ったり、2σで計算したり
したのですが、これでは正確に出ないと批判されました・・・。
全体で見ないと、全体でのばらつきも反映されないので、
二者間では有意差が出やすいと言われました。

ただ、指導者や先輩たちの仰ることがそれぞれ異なり、
別の事象ではA先輩の、でもこれはB先生の、というように、納得できる
助言をしてくださる方も固定しておりません。

自分で決めるしかないのですが、○○だったらこういう結果、××だったら
こういう結果になります、といったように持っていこうかと思います。

ですので、これに関しても、二者間での差も提示しようかと思いました。
ご助言、どうもありがとうございました。

お礼日時:2015/12/12 13:46

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!