【復活求む!】惜しくも解散してしまったバンド|J-ROCK編 >>

相関関係 クロス集計 散布図の違いはどのようなものですか?
また、アンケート集計の実際の場において
どのように使い分けすればいいでしょうか。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

> あやしい項目は全部相関係数を求めればいいのかと思いました。



基本的にはその通りです。というか,現在はコンピュータがあるので統計ソフトなどを使えば全ての項目について散布図と相関係数を一気に描くことが可能ですから,まず初めにやっておくべき作業ではあります。

> クロス集計のときは順序尺度ですが、片っ端からシグマ値法で変換して相関関係を求めるわけにはゆかないのですか?

クロス集計は順序尺度だけとは限りませんよ。むしろ多くの場合,名義尺度(何かの度数)であることの方が多いかもしれません。それからすべてシグマ値法で変換しても構いませんが,順序尺度に適した相関係数というものあります。だから,それは「その状況に最も適した判断をする」ということで,これは経験に頼るしかないということです。

全数調査といっても,母集団の規模や扱う変数の数にもよりますが,多くの場合は全ての項目について相関を取るという様なことまではしないのではないかと思います(私はあまり大規模な調査をしたことがないので、、、)。
    • good
    • 0

いずれも統計学の入門書をみれば必ず説明されているものです。

宣伝するわけではありませんが,私が最近見つけた本で「データマイニング事例集」(共立出版)というものがあります。最初の数十ページに相関関係,クロス集計,散布図の説明が簡単にされており,残りのページにそれらを利用した事例がたくさん載っています。
    • good
    • 0
この回答へのお礼

ありがとうございます。
いま3冊ほど並行して読み進めているのですが、クロス集計の利点がさっぱりわかりませんでした。というのも、あやしい項目は全部相関係数を求めればいいのかと思いました。

クロス集計のときは順序尺度ですが、片っ端からシグマ値法で変換して相関関係を求めるわけにはゆかないのですか?

また全数調査を行った場合、相関関係を求めるのは膨大な数字を扱うことになります。この場合、アンケートを集計してからサンプリングして整合性が取れるものなのか、わかりません。

お礼日時:2006/11/15 02:54

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Q質的データと量的データの相関について

例えば性別のような質的なデータとテストの点数などの連続変数からなる量的データの間の相関をみるということは出来るのでしょうか??統計の本には相関の結果が書いてあるのですが、結果の読み取り方と計算の仕方がわかりません。基本的な質問ですみませんが、どなたか教えていただけませんか??
宜しくお願いいたします。

Aベストアンサー

で・き・ま・す!!!
こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが)

さて、本題。
ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。

<例1>
2者(男と女)での性質の違いを調べたいとき
→数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。

<例2>
3者のものを比べたいとき(男、女、オ○マの3種類とか)
→次の3通りについて、全部相関を調べればよいです。
・A群を1、B・C群を2
   →これで相関が出ればAに属するか否かによって性質が違うということが言えます。
・B群を1、A・C群を2 → 以下同文
・C群を1、A・B群を2 →  〃

Excelとかだと、「相関係数」が容易に関数として求めることができるので、ちょー簡単に分析できますよ。
相関係数というものは-1から+1までの値をとります。絶対値が1に近いほど相関あり、0に近いほど相関なしです。相関係数の絶対値だけが問題なので、男を1、女を2としても、その逆にしてもよいわけです。

私、日ごろ、当たり前のように、応用してますよ。

<実用例>
パンを焼く機械が3台ある工場で、製造不良数と使用機械との間に相関がないかどうか調べる。
この結果、特定の機械でつくったパンだけに不良が多い傾向が認められれば、その機械に対して対策を打つ・あるいは使用禁止にして、残り2台のみ稼動とする など。

以下、補足です。
このような3者以上の時って、結果的に相関係数が最大になるように、それぞれに対する「数値」を微妙に調整していくと理想的ですね。(←試行錯誤的な繰り返しになると思いますが)
例えば、3つの中でナンバー1がどれでワースト1がどれと決まり、さらには、両者の中間のは、どちらかというと他の2つのどちらに近いか、といったことまで判ります。だけど、ここまで分析するのは複雑だし時間がかかるので、私は実用的にはやっていません。前記のように3種類を2種類ずつ3通りに分けるだけで十分と思います。

で・き・ま・す!!!
こんなこと、なかなか学校ではカリキュラムの中でなんか教えてくれないですよね。私も決して専門家ではないんですが、我流で考えました。(まー結果的には我流でなくて正統流だと自負しているんですが)

さて、本題。
ご質問の文中「質的なデータ」とおっしゃってますが、要は、これも不連続ではあるんですが、数に見立ててしまえばいいんですよ。

<例1>
2者(男と女)での性質の違いを調べたいとき
→数はなんでもよいんですが、例えば、男を1、女を2とすればよいです。

...続きを読む


人気Q&Aランキング