相関比と相関係数を比較する方法はありますか？？

Question

おはようございます。
大学四年生で卒論に取り組むものです。
X1(量的変数),X2(カテゴリー変数),
Y（量的変数）
があるとしてX1とX2のどちらがYに影響を及ぼすか知りたいのですがうまい方法はありますか？？
おそらく相関比と相関係数は直接比べられないと思います。
そのためそれぞれで単回帰分析でX1からY,
X2からYを予想した際の決定係数を比較してどちらの方がYに影響を及ぼしていると判断するのはありですか？

kamiyasiro · Accepted Answer

企業で統計を推進する立場の者です。

質的変数どうし、あるいは質的変数と量的変数の相関を「ピアソンの積率相関」で計算すると、実際の関連性の強さより小さめに出ます。

質的変数と量的変数の相関は「ポリシリアル相関」という相関係数を使えば良いです。
質的変数と質的変数の相関は「ポリコリック相関」、特に２値どうしの相関は「テトラコリック相関」というものを用います。
ちなみに、量的変数と量的変数の相関は一般的に使われる相関係数が「ピアソンの積率相関」です。

標準偏回帰係数を見るというのは、式の形を見れば分かりますが、ピアソンンの積率相関と同じです。

Rであれば、全てひとつのライブラリ「polycor」で計算できます。

kamiyasiro · Answer

#1です。

コメントありがとうございます。

名義尺度は、いったん01化、すなわちワンホット・エンコーディングをしてポリシリアル相関を求めなければなりません。
これは、ご存じかもしれませんが、例えば工業のデータ解析ですと、仕入れ先が３つでA社、B社、C社という場合は、変数名「仕入先」になっているところを、変数A社、B社、C社というように別々に列を設け、該当する行に１を立てます。（その後、仕入れ先という名義尺度の列は削除します）そのうえで、各社の01データと量的変数の相関をポリシリアル相関で求めます。

では、「仕入先」そのものが結果にどれだけ効いているかですが、これを行う統計分析手法は「共分散分析」です。添付して頂いたリンク先に相関比の説明が書いてありますとおり、２乗和の分解ですから考え方は同じです。ですが、リンク先の式を見れば分かるように相関比は他の因子の影響を排除していませんので、多変量には向きません。

以下は補足です。

①ワンホット化は古典統計の数量化に似ていますが、数量化は上の例ですとC社という変数は作りません。それは、A社B社C社の列を足すと常に１になり線形制約が入ってしまうからです。回帰に持ち込むときは数量化か正則化回帰でやって下さい。

②相関と回帰の関係ですが、簡単のために単相関、単回帰で説明すると、共変量Sxyの値をSx、Syで基準化しているのが相関係数（ただし、ディメンジョンを合わせるために√Sx、√Syで割っている）で、共変量SxyをSxで基準化しているのが回帰係数です。
結局同じSxyという共変量を見ていることになりますね。Sxyは列間の積和すなわち内積なのです。内積が０のときは直交しますから、相関が０になる列を直交列とか言います。また、相関は横軸、縦軸とも基準化していますので、傾きは常に45°になります。
何を言いたいかですが、相関係数＝標準偏回帰係数ではありません。見ているものは共変量Sxyで同じですが値は違います。ここを端折ってしまい、誤解を与えてしまいました。すみません。

③もうお分かりだと思いますが、名義尺度と量的変数の「共変量」なんて考えられませんので、関係の強さってそれでは分からないのですが、２因子モデルならば、
y＝A＋e
y＝A＋B＋e'
というように、名義尺度Bをモデルに加えたとき、残差平方和ｅが小さくなれば、Bは効いていると判断できますよね。こうやって調べるしかありません。これが共分散分析です。リンク先と同じ意味じゃん、と言われればそうですが、それは理解している証拠です。

相関比と相関係数を比較する方法はありますか？？

企業で統計を推進する立場の者です。

#1です。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング