プロが教えるわが家の防犯対策術!

クロス集計表の検定をしたいと思っています。
例)

表側:cluster1~cluster3
表頭:事象A,事象B,事象C

事象A,事象B,事象Cに関しては、今はある定量調査の設問をもとに、Aランク、Bランク、Cランクと
ランク付けしたもの(3グループ)を想定しており、クラスターごとのAランク~Cランクの分布を計算するのにクロス集計表を出しました。

有意な差があるかどうかを統計的に確かめるために、カイ二乗検定を行ったのですが、良い結果が出ず・・・・という状態でして。

もしかして、カイ二乗検定ではなく、他の検定手法を使う必要があるのかなと思い、質問させてもらいました。

質問者からの補足コメント

  • ちなみに、私が実際のデータでSPSSで検定した結果を添付しておきます。

    「検定方法を教えてください」の補足画像1
      補足日時:2017/02/16 08:26

A 回答 (6件)

No.3です。

「お礼」に書かれたことについて。

>カイ二乗検定では、各クラスターでランクA~Cまでの比率が同じと仮定した上で検定をするのですね。
>もしそこで差があることが有意であると出た場合には、例えばクラスター1はランクAの割合が高いのが特徴、クラスター2はランクCの割合が高いのが特徴などといったことが言えるという理解で宜しいでしょうか?

はい、そのような理解でよいと思います。
たとえば、日本人の標準的な血液型の比率が「A:40%、B:20%、AB:10%、O:30%」として、ある100人のグループが「A:20人、B:40人、AB:5人、O:35人」で、検定結果が「有意な差がある」となったら、「このグループは、A型が少なく、B型が多いのが特徴」といえるでしょうね。
(ただし、検定結果では「どの部分のいびつさが最も多いか」までは出て来ませんが)
もし、別なグループが「A:30人、B:30人、AB:8人、O:32人」で、検定結果が「有意な差なし」となったら、「A型がちょっと少なくて、B型が多い気がするが、誤差範囲内ということらしい」ということです。

 「検定」はあくまでも「総合的な判断」ということで、要因の分析をしてくれるものではありません。
 「クラスターとランクとの間に関係性があるかどうかを見る」といったような「要因の影響度の分析」をしたいのなら、「分散分析」(ANOVA)などを行う必要があると思います。(SPSSには当然その機能があると思います)


>それともこのようなことを述べるには、他の方がコメントしてくださったように、ランクA,ランクB、ランクCについてもカイ二乗検定をする(=クロス集計表の表頭と表側を入れ替えた上で、カイ二乗検定をする)ことが必要になるのでしょうか。

これはよく分かりません。上の例でいえば、「血液型A、B、AB、O型について検定する」ということですが、血液型は「合計すると100%になる」という一種の「相互に従属関係」ですから、まさかこの関係の「独立性」を検定するわけではありませんよね?
検定の「手法」を議論する前に、「何を検定するのか」「何を比較、検証したいのか」ということを考える必要があると思います。


ちなみに、私はSPSSなどの高度なツールは使ったことがないので、結果を示されても中で何をやっているのかが分からないため、「補足」内容については何とも言えません。
    • good
    • 1
この回答へのお礼

わかりやすい説明ありがとうございました!
とても参考になりました!
そうですね!
分散分析でした・・・。
遠い昔に勉強して、使う機会がないので、分散分析の存在を忘れていました・・・。
分散分析についても調べて、手法を思い出してみたいと思います。
お忙しい中、たくさんコメントを頂きましてありがとうございました。

お礼日時:2017/02/17 08:53

No.2 です。

私が回答を書いている間に No. 1 さんが回答されていらっしゃいました。回答を投稿してから、チェックせずに、出かけておりました。戻ったら goo からのお知らせがあるというので見たら、コメントがついており、No. 1 さんの回答も2つ追加されておりました。
それによれば、計算結果から、有意差があるということが確認できたということなので、それで十分だと思いますが、ちょっと補足(?)させてください。

はじめの質問の状況で、よい結果が出なかったということが書いてありました。このことについて、私は、あなたが次のように考えたのではないかと思いました。
データを見ると、クラスターとランク間に有意差がありそうだから、それを確認しようとし、計算したらよい結果がでなかっので、、、。

この状況で、検定の仕方を考える必要があるのではないかと思いました。つまり、クラスターとランクとを全部一纏めにして差がないという仮説で計算しているようですが、クラスター間に差がないとして計算、検定し、次に、ランク間に差がないとして計算、検定すれば、手間は倍かかりますが、差があること(差がないという仮説が棄却される)が
いえたのではないかと思いました。

No. 1 さんへのお礼の中に書いてあることからも分かったことですが、もともとデータ数が少なかったようなので、ある程度のデータ数になるように工夫する(今の場合、クラスター間の比較、ランク間の比較という形にして、各ボックスのデータ数を増やす)ことが考えられます。

今の場合、No. 1 (= No. 3, 4)さんの計算結果から、2段階にしなくてもよかったようですが、、、、。
    • good
    • 0
この回答へのお礼

コメントありがとうございました。
とても参考になる意見です。
No-1さんのところでも書かせて頂いたのですが、私のカイ二乗検定に対する理解が異なっていたと思われます。
てっきりクラスターとランクの2変数の間に関係性があるのかどうかを判断するためのものがカイ二乗検定なのだと思っていました。
クラスター1~3でランクA~Cの比率に差があるのかどうかを検定するのがカイ二乗検定なのですね。
また、ランクA~Cの比率に差があることを証明したい場合は、表頭と表側を入れ替えて、さらにカイ二乗検定が必要となってくるのですね。
そのあたりも理解できていなかったです。

ちなみに、今回参考にした資料は、
http://www.koka.ac.jp/morigiwa/sjs/les11001.htm
です。

こちらの事例を参考にしながら、SPSSで実際のデータにあてはめたところ、優位確率が5%未満にならなかったというわけです。

お礼日時:2017/02/16 08:23

No.3です。

No.3の表(単なるエクセルです)でどんなことをやっているのかは、こんなサイトを参考にしてください。「例2」の「独立性の検定」です。
http://www.geisya.or.jp/~mwm48961/statistics/kai …
    • good
    • 0
この回答へのお礼

参考となるサイトのご案内ありがとうございました!

お礼日時:2017/02/17 08:53

No.1です。

「お礼」に書かれたことについて。

>クラスターとAランク~Cランクの変数間に有意な差があるかという仮説を立てた上で、検定を実行しよとしました。

多分仮説の意味が逆ですよ。「変数間に差がない=A~Cの比率はみな同じ」という仮説を立てて、検定で否定し、「変数間には有意な差がある」と結論するのですよ。そもそも「差がある」と仮定したら、どうやって「カイ二乗値」を計算するのですか? 「比率が同じ」と仮定するから、「仮定どおりならこうなる」という値が計算できるのです。

No.1 の「お礼」に書かれた下記のデータで、通常のカイ二乗検定をやってみました。

>        Aランク Bランク Cランク
>cluster1 200人  100人 30人  70人
>cluster2 40人   30人  7人   3人  
>cluster3 20人   8人   10人  2人

結果は、
・cluster1 と cluster2:信頼度95%で「有意差あり」(信頼度97.5%でも「有意差あり」)
・cluster1 と cluster3:信頼度95%で「有意差あり」(信頼度97.5%でも「有意差あり」)
・cluster2 と cluster3:信頼度95%で「有意差あり」(信頼度97.5%でも「有意差あり」)
でしたよ。

「検定」としては、「差がない」という帰無仮説に基づいて、比較対象の2つのクラスターの「ランクA~Cの比率は同じ」と仮定したものと実際のデータとの間の「カイ二乗値」を計算し、基準値となるカイ二乗値よりも大きい、つまり「めったに起こりえない」(信頼度95%=有意水準5%なら「5%未満でしか起こらない」、信頼度97.5%=有意水準2.5%なら「2.5%未満でしか起こらない」)ということで棄却し、「差がある」という対立仮説を採用する、というロジックです。
(一番度数の少ないクラスター2と3の比較について計算した結果を添付します。分かりづらいかもしれませんが。)

「有意差あり」は不適切な結果で、「有意差なし」(3群とも同じようなデータだ)という結論を得たいのですか?

なお、「フィッシャーの関数」とは、「カイ二乗分布表」を使わずに、「場合の数」から直接確率計算を力ずくでやってしまおうという方法だと思います(違ったかな?)。要因数もデータ数も極めて少ない時には使えますが、データ数が多いと現実的には相当大変ではないかと思います。
↓ 例えば参考例。「フィッシャーの直接確率検定」
http://bio-info.biz/statistics/test_fisher_exact …
「検定方法を教えてください」の回答画像3
    • good
    • 1
この回答へのお礼

実際に手を動かしていただき、ありがとうございました。
計算して頂いたのは、Excelですか?
カイ二乗検定の意味を勘違いしていたかもしれないです・・・。
てっきり、私はカイ二乗検定をすることで、クラスターとランクとの間に関係性があるかどうかを見るもので、”比率”が同じと仮定して検定するのだと思っていなかったです。
私はSPSSで実行したのですが、もしクラスターとランクとの間に関係性があるとしたら、”残差”の数値を見て、各クラスターの特徴を述べられると思っていました。

http://www.koka.ac.jp/morigiwa/sjs/les11001.htm

こちらを参考にしながら、実施しました。
この例を見ながら、実際のデータにあてはめてみていました。

大学時代に検定は勉強したのですが、検定についてはイマイチ理解ができないまま終わってしまったので、いまだにあやふやな理解のままです。
また、実際にデータを使ってあてはめたことがないため、今回質問させて頂いた次第です。

カイ二乗検定では、各クラスターでランクA~Cまでの比率が同じと仮定した上で検定をするのですね。
もしそこで差があることが有意であると出た場合には、例えばクラスター1はランクAの割合が高いのが特徴、クラスター2はランクCの割合が高いのが特徴などといったことが言えるという理解で宜しいでしょうか?

それともこのようなことを述べるには、他の方がコメントしてくださったように、ランクA,ランクB、ランクCについてもカイ二乗検定をする(=クロス集計表の表頭と表側を入れ替えた上で、カイ二乗検定をする)ことが必要になるのでしょうか。

お礼日時:2017/02/16 08:17

この質問を読んでいると、根本的に検定の使い方を間違えているように聞こえます。

自分の都合のよい結論を導くために、統計的に処理をした結果を利用しようという意図が感じられます(昔、はやった(今も?)コンピュータの出した結果だから、正しいのだ、というのと同様な感じ)。

(帰無)仮説を立て、信頼度(96% とか、99% とか)を定めてから、統計量を計算し、仮説を棄却するかどうかを判断するのが、通常の使い方だと思います。

今の文面では、繰り返しになりますが、統計量を求めたら、よい値にならなかった(仮説を棄却できなかった、とか)ので、都合のよい検定法はないかといっているみたいです。
    • good
    • 0
この回答へのお礼

コメントありがとうございます。

>(帰無)仮説を立て、信頼度(96% とか、99% とか)を定めてから、統計量を計算し、仮説を棄却するかどうかを判断するのが、通常の使い方だと思います

その通りだと思います。自分が言いたいことが有利な結果に出なかったというのは特になく、仮説を立てた上で検定を実施しました。以下のようなデータを検定にかける場合、「カイ二乗検定」という手法で問題ないのかが知りたかったです。

お礼日時:2017/02/15 11:14

>有意な差があるかどうかを統計的に確かめるために、カイ二乗検定を行ったのですが、良い結果が出ず・・・・という状態でして。



それは「統計的に有意ではない」(単なる「ばらつき」以上の、意味のある差(=有意な差)はない」)ということですよ。「ばらつきの範囲内での変動に過ぎない」という結論です。

「良い結果が出ず」って、自分の希望通りの結果を導くのが統計ではありません。「一見そのように見える」あるいは「とてもそのようには見えない」といったあいまいなものを、定量的に評価してみるのが統計、検定です。
結果がそうなら、客観的にそうだということです。

ただ気になるのは、
・cluster1~cluster3
・事象A,事象B,事象C
・Aランク~Cランクの分布
などのクロス集計表の「中身」です。「定量調査の結果である数量データ」なのか、数量データから「Aランク~Cランク」にした「カテゴリーデータ」なのか、それも「事象ごとのランク」なのか「事象ごとの各ランクの度数」なのか。
また、各データは独立か、重複や相関はないか、などの確認も必要かもしれません。

「カイ二乗検定」を使うのは悪くないと思いますが、同じ「カイ二乗検定」といっても、通常の「ピアソンのカイ二乗検定」以外にいろいろな改良方式があるので、どの方式を使うかをデータのタイプや特徴に合わせて検討することも必要かと思います。

↓ カイ二乗検定
https://ja.wikipedia.org/wiki/%E3%82%AB%E3%82%A4 …
https://software.ssri.co.jp/statweb2/tips/tips_1 …
    • good
    • 0
この回答へのお礼

回答ありがとうございます。
すみません、補足させてもらいます。良い結果が出ないというのは、もともとのサンプル数が少なくて、期待度数が5未満になっていますよというメッセージが出てしまい、クロス集計表から読み取れることを統計的にちゃんと説明出来ないということを申しています。ちなみに、Aランク~Cランクの分類ですが、数量データを使って、Aランク~Cランクに分類したカテゴリデータになります。Nが少ないために出ている「期待度数が5未満」問題に関してはフィッシャーの関数を使えば良いことが先ほどわかりましたので、カイ二乗検定が問題なければ、フィッシャーの関数を利用して検定をしてみようと思っているところです。

>(帰無)仮説を立て、信頼度(96% とか、99% とか)を定めてから、統計量を計算し、仮説を棄却するかどうかを判断するのが、通常の使い方だと思います

その通りだと思います。自分が言いたいことが有利な結果に出なかったというのは特になく、仮説を立てた上で検定を実施しました。以下のようなデータを検定にかける場合、「カイ二乗検定」という手法で問題ないのかが知りたかったです。

今回検定をかけようとしているデータは以下になります。
例)定量調査結果のある設問を使って、得点化したものをベースにある基準値を使って、Aランク~Cランクの3分類したものが各クラスターごとにどのようになっているかを調べるためにクロス集計表を作成しました。仮説として、クラスターとAランク~Cランクの変数間に有意な差があるかという仮説を立てた上で、検定を実行しよとしました。
    Aランク Bランク Cランク
cluster1 200人  100人 30人  70人
cluster2 40人   30人  7人   3人  
cluster3 20人   8人   10人  2人

数値は実際の数値とは異なりますが、こんなイメージのクロス集計表をカイ二乗検定にかけようとしました。カイ二乗検定は期待度数が5をきる時は使わないほうが良いという記事を見かけました。その場合はフィッシャーの関数を使ったほうが良いという記事も見ております。上記状況の中で、カイ二乗検定(フィッシャーの関数)を使うのが本当に良いのかについてアドバイスを頂けると助かります。
よろしくお願いします。

お礼日時:2017/02/15 11:13

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!