プロが教えるわが家の防犯対策術!

統計で相関をみるときに相関係数と有意差とどちらが重要なのかよくわかりません。たとえば、Spearman検定で、有意差があるのに相関係数が低い、といったときは統計的に有意な相関があるといっていいのでしょうか?統計素人でここがよくわからず困っています。すみません、ご存知の方おられたら教えてください。よろしくおねがいいたします。

A 回答 (8件)

相関を見るのであれば「有意差」ではなく「有意水準」ですね。



相関係数(r)は0~1の値を取ります。
一定の危険率で有意かどうかには標本数が関係しています。
たとえば危険率5%では、
標本数が何百個もあればr=0.1でも相関は有意と見なせますし、
標本が3個しかなければr=0.9でも相関があるとは見なせません。

有意でないのに相関係数や近似式を表記して貰っても意味がないので
相関係数と有意水準、どちらといわれれば有意水準が重要ですね。
    • good
    • 5

4番です。


私の書いたのは「Spearman検定」での「(順位)相関係数」ですから「相関係数」全般に一般化しないで考えてください。

一般論で「相関係数」が存在する場合には.2つの因子X,Yが存在すると仮定して.
Y=aX+b
の相関関数らしき式が得られたとします。
このときに.この関数線を横軸(V軸と仮にします)に垂直方向を縦軸(同W軸)とすると.V軸方向に正規分布がみられ.かつ.W軸方向に正規分布が見られるときに限って
相関関数Y=aX+b, 相関係数rが存在する
といえます。

もし.他の関数で1次式に近似できる場合に同様な分布になれば相関係数が存在する(Spearman検定では「順位相関係数(かな)」の言葉に見られるように正規分布とみなせるように換算を使っていたはず。かなり前なので記憶があいまい)のです。
1次式に限ると.5番の方のご指摘通りです。
しかし.統計の解釈では「有意さがあるとはいえない」という変な言葉の使いまわしをする理由のひとつとして「相関係数0」とか「相関係数1」という数値を求めるには「誤差を0とする測定」をしなければなりません。これは実質的に不可能です。「有意さがない」という結論を出すためには「誤差0の測定」が必要です。

もうひとつ.「有意さが有る」場合は問題がないのですが.「有意さがあるとは言えない」場合の問題があります。
「有意さがあるとは言えない」場合は.「わからない」という意味になります。「行った方法に問題があり意図した結論が得られなかった」場合です。したがって.他の可能性を検討しなければなりません。

ひとつの手段として散布図を作成します。「分布をとったらば゜分布に偏りがあった」場合には「特殊な相関がある」という言葉を使います。「相関がある」ではないです。「特殊な相関がある」です。これが6番の方の指摘内容です。ただ通常の統計処理では散布図を描いてから人間の画像処理により「直線になりそうだから.最初に分散分析を行って相関係数が求められるかを調べてから.相関係数を求める」という手順になります。これを省略すると6番の方が指摘するような内容がでてきます。
「二次関数のグラフ、若しくは、円のグラフ」にさんぶずがなっていたらそのような関数を使って1次関数に換算し.散布図を作成.人間の画像処理により「直線になりそうだから.最初に分散分析を行って相関係数が求められるかを調べてから.相関係数を求める」という手順になるからです。

分散分析にしても相関分析にしても以前は1ヶ月以上計算に時間が必要な重労働でした(学生時代私が一番計算が速かったのです)。だから.無駄な計算にならないように事前に各種検討を行ってから使用したのです。
この検討を省略して直接数値計算を行うから変な問題が出てきてしまうのです。
エクセルにしても123にしても1分も有れば作画できるので「さんぶずを眺めたら直線になりそうだ」と思ったときに限って分散分析表の作成と相関係数を求めるという作業に入るようにしてください。
これをしないと「特殊な相関」を見落とします。





「相関がある」の反意語は「相関があるとはいえない」であり「わからない」という意味です。これを取り違えると大きな間違いに発展する場合があります。
    • good
    • 0

#3で回答した者です。



相関係数というのは、どれだけ相関係数(の絶対値)が大きければ相関がある、という定義がありません。

相関係数が1ぴったり、もしくは-1ぴったりになったときだけ、正確に一次関数になる、
ということだけです。

前回の例で分かるとおり、
多数のパラメータが存在するとき、どのパラメータが一次関数的に利いているかを、パラメータ同士を相対的に比較するときに有効なのです。
(ちなみに、データに1と0しかなくても、一次関数になりますから。)



また、
「相関係数ゼロ」=「無関係」
とする考え方は、明らかに間違いです。

相関係数ゼロというのは、「一次関数的な関係がない」ということだけです。


最も分かりやすい例で説明しましょう。

二次関数のグラフ、若しくは、円のグラフ。

これらの各点を、X=0を中心の両側に、等ピッチで取って、相関係数を求めてみてください。

すると、ちょうどゼロになるはずです。

XとYとが、正確に二次関数のグラフに載っていたり、円の円周になっているとき、常識的に見て、これを誰が「無関係」と呼ぶでしょうか?

(ちなみに、円の中を無数の点で塗りつぶしても、相関係数ゼロです。)




ちなみに、
私が前回回答で出した例の一つ、
時間と不良率との関係についても、同様のことに注意しなくてはいけません。

1日の昼~夜のサイクルを、

0時、1時、2時、3時、・・・・・、22時、23時、0時、1時、・・・・・

という周期的なデータで表すときと

0時、1時、2時、3時、・・・・・、22時、23時、24時、25時、・・・・・

という、日付を超えても時刻を単純加算していったデータで表すときとでは、
当然、相関係数(最小二乗法)の結果が変わってしまいます。

後者でやりますと、「明け方に不良が多い」という事実を見落としてしまいます。

しかしながら、
例えば、
桜の開花予想をするときは、後者のやり方でなくてはいけません。
(日付、気温などのデータの扱い)
地球温暖化の予測も、そうです。



<おまけ>

最小二乗法において、相関係数を求める意味というのは、
角度が45度か-45度の、原点を通る一次関数に直したときに、
各データが、その直線グラフに、どれだけ乗るか(近いか)ということを表す指標です。

したがって、
例えば、
ある1つの村で、毎日の交通事故死亡者数の統計を取ったときのように、グラフが値を這う場合、
若しくは、
この例のように、ゼロでなくても、ある程度の揺らぎの範囲で毎日一定数である場合、相関係数はゼロになります。
(もしもゼロでなければ、正の相関係数ならば交通事故死者数は増加傾向、負の相関係数ならば、減少傾向ですが。)
    • good
    • 0

相関係数は二つの量の間にどの程度の関係があるのかないのかを示す数字であり、有意義かどうかというのはその数字が信用できるかどうかを現わす尺度です。

ですから信頼性が低い結果になった場合、その相関係数は使ってはいけないのです。

 ちなみに相関係数0というのは無関係という関係なのです。
    • good
    • 0

とくに両者を区別するものではないのです。

意味の違いは.

「有意さがある」とか「ゆういさがあるとはいえない」とかの文章の前には「危険率5%で」とか「危険率1%で」という句がつきます。
前者が.20回に1回間違うが19回は検定した内容の通りになる
後者は100回に1回間違うが99回は検定した内容のとおりになる

場合。

順位法なので順番で考えないとおかしなことになります。

因子Aで中央付近にある点Aiに対して.因子Bが中央付近BgからBl付近(g,i,lは順番、g<i<l)に存在することか有意であるという検定結果がでたときに.l-gの幅を示すのが相関係数です。相関係数が1に近いとl-gの幅が狭くなり1のときにiになります。
データ数が多いと.相関係数が低くても有意さが現れ.データ数が数ないとある程度相関が高くないと優位さが現れ間せん。

>意差があるのに相関係数が低い
データ数がある程度多いのではずれもある。

有意差があるとはいえないのに相関係数が高い
データ数が少ないので.間違う可能性が高い

となります。いずれにしても「有意である」ことがいえないと「何回に1回間違うか」が見当つきませんので「数学」の範囲では統計処理が意味を持ちません。

しかし他の業界.心理学などでは.「危険率10%でも優位さが得られない」(10回に1回以上間違う)ことが普通なので検定を行わず相関係数だけ示す場合があります。相関係数をみれはだいたいどのくらいの確率で間違うかを見当つけることができるから検定をおこなわないのです。
これは統計をつかう業界での考えか他の違いです。
    • good
    • 0

どちらも、非常に重要です。



私は理論・定義・証明よりも、実用性ないしは「本質」を重視します。


実用的には、以下のようなことです。

----------------------------

有意差の「意味」

寸法10cmの釘Aがあります。
その製造ばらつきは、標準偏差(の1倍)で言えば、±5cmです。

一方、寸法15cmの釘Bがあります。
その製造ばらつきは、標準偏差(の1倍)で言えば、±5cmです。

さて、
各々の釘を混ぜたとします。
すると、もしも標準偏差がゼロであれば、誰が見ても測っても、釘Aとして売られていたものなのか、釘Bとして売られていたものなのか、区別がつきます。

しかし、標準偏差の下側に外れる確率、および、上側に外れる確率は、各々16%です。
(だから、テストの偏差値60以上の人は、全受験者数の16%なのです。)

ですから、2つの分布が(若者用語で言えば)「かぶる」危険があります。

この、かぶる確率を「危険率」と言います。

有意差の決定(検定)は、危険率をまず宣言します。
つまり、
「かぶる確率が、1%ぐらいなら、まー、いっか。」
これを「危険率1%」と呼びます。

そして、かぶる確率が1%以下という結果になれば、
「(危険率1%で)有意差あり」
です。


たとえば、
ある試験の点数が50点の受験者と60点の受験者とで、実は、50点の人のほうが優秀である可能性(危険)はあるわけです。


-----------------------------

相関係数の「意味」

ある工場では、普段、良品率95%、不良率5%ぐらい、という安定した良品率(歩留まり)で、製品生産が出来ていました。
ところが、ある日を境に、突然、不良率が20%に上昇しました。
この製品には、30の工程がありました。

工程1: 装置A、Bの2台のいずれかで処理
工程2: 装置ア、イ、ウの3台のいずれかで処理
・・・
工程30: (略)

そして、
1個1個の良品、不良品が、各工程で、どの装置によって処理されたかについては、常に、電子データとして保存され、データベースになっています。
(若しくは、製造ロットごとの不良率のデータがあります。)

そして、この工場は24時間稼動で、1時間ごと(0~0時59分、1時~1時59分、・・・)に不良率の統計を取っています。


【問題】

もう、不良率が激増してから3日間も経ってしまいました。
あなたは、この工場の技術者です。
いち早く対策をとらないと、あなたはクビになります。
さー、どうやって対策に着手しましょうか?


【正解】
1.
表計算ソフトに製造データを持ってきます。
↓こんな感じで。
縦軸に各製品の製造No.(若しくは、各製造ロットのNo.)を並べます。
その右横に、不良か否かを1と0で記入。(若しくは、製造ロットごとの不良率を記入。)
そして、横軸(最上段)には、装置名称です。
そして、各装置名称の下に、各製品(ロット)が、その装置で処理されたものかを1と0で記入します。
また、装置名称と同様に、それぞれ、どの時間帯で処理されたのかも、1と0で記入します。

以上で、準備は終わりです。

あとは、不良か否かの列データ(X)と、各装置、各時間帯の列データ(Yn)との間のそれぞれの相関係数、すなわち、
(X、Y1)の相関係数、
(X、Y2)の相関係数、
・・・
を表計算ソフトの機能を使って出します。

そして、
その中で、最も相関係数が高いものから、対策に着手します。

(注意事項・・・というか前提: 不良を1、良品を0とするか、
若しくは、
不良率をX列に書いた場合(=X列に良品率を書かない場合)です。)

<例1>
全ての要因の中で、工程1の装置Aで、最も高い、正の相関係数が出たとき。
 → まず、装置Aでの製造を禁止する。
  → 装置Aの対策を打つ。

<例2>
全ての要因の中で、工程2の装置イで、最も絶対値の大きい、負の相関係数が出た場合
 → まず、工程2の処理を装置イに限定する。
   アとウでの処理は禁止にするか少量生産にする。

<例3>
ある時間帯で正の相関が出たとき、
(純粋に時間帯要因)
その時間帯の前に、工程リーダーが工程作業員に対して注意を喚起する。交替制勤務の交替直前や朝方に不良が多いのであれば、疲労、眠気などの要因が考えられるので、作業員管理方法を見直す。
例えば、工場内の温度管理に落ち度がある場合は、時間帯で温度が変わっている可能性もある。
等々。

(人的要因)
交替制勤務者のうち、その時間帯に作業していた作業者の作業記録をチェックする。その作業員をリーダーに監視させたり、二重チェックさせる、など。

--------------

長く書きましたが、
相関係数と危険率とでは、実用上の意味も使い方も、全く異なります。


下記は、ちょっと似た過去質問です。
jbg という人間が回答してますが、私と同一人物ですので。(色々ありまして)
http://oshiete1.goo.ne.jp/kotaeru.php3?q=2036291


追伸
だいぶ長く書いてしまったので、補足欄に追加質問されても、追加回答しません。ごめんなさい。
    • good
    • 2

>相関係数と有意差とどちらが重要なのかよくわかりません。


どちらが重要かという問題ではなくて、求めた相関係数が統計学的にみて信用できるものかどうか、ということを調べるために検定するわけですね。この検定をする際に有意差というものが重要になってくるわけです。

>Spearman検定で、有意差があるのに相関係数が低い
スピアマン検定とは順位相関に関する検定のことでしょうか?
例えばスピアマンの順位相関係数が0.862とかになったとしても、それを検定して有意差が認められなかったのであれば2変量間に相関は認められないということです。
    • good
    • 1

有意差というのはなんの有意差かで異なります。


ただ、相関係数が低いのに相関があるとはいえません。

この回答への補足

どうもありがとうございました。
Spearman検定で、p値が0.001、ρ値が0.2、のような場合ですが、この場合相関があるといっていいのでしょうか?
よろしくおねがいいたします。

補足日時:2006/04/28 13:27
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!