プロが教えるわが家の防犯対策術!

おはようございます。
大学四年生で卒論に取り組むものです。
X1(量的変数),X2(カテゴリー変数),
Y(量的変数)
があるとしてX1とX2のどちらがYに影響を及ぼすか知りたいのですがうまい方法はありますか??
おそらく相関比と相関係数は直接比べられないと思います。
そのためそれぞれで単回帰分析でX1からY,
X2からYを予想した際の決定係数を比較してどちらの方がYに影響を及ぼしていると判断するのはありですか?

A 回答 (2件)

企業で統計を推進する立場の者です。



質的変数どうし、あるいは質的変数と量的変数の相関を「ピアソンの積率相関」で計算すると、実際の関連性の強さより小さめに出ます。

質的変数と量的変数の相関は「ポリシリアル相関」という相関係数を使えば良いです。
質的変数と質的変数の相関は「ポリコリック相関」、特に2値どうしの相関は「テトラコリック相関」というものを用います。
ちなみに、量的変数と量的変数の相関は一般的に使われる相関係数が「ピアソンの積率相関」です。

標準偏回帰係数を見るというのは、式の形を見れば分かりますが、ピアソンンの積率相関と同じです。

Rであれば、全てひとつのライブラリ「polycor」で計算できます。
    • good
    • 0
この回答へのお礼

いつもお世話になっております。
詳しい解説をありがとうございます。

標準偏回帰係数は相関係数でありことを忘れていました。
指摘していただきありがとうございます。

一点だけ質問させてください。自分の説明不足だったのですが
今回、名義尺度と量的変数との相関を見たいのですが
その場合もポリシリアル相関は使えますか?
順序尺度×量的変数はポリシリアル相関係数
名義尺度×量的変数は相関比
を使うとネットで調べたら出てきました。
https://qiita.com/shngt/items/45da2d30acf9e84924b7

お礼日時:2021/01/01 10:58

#1です。



コメントありがとうございます。

名義尺度は、いったん01化、すなわちワンホット・エンコーディングをしてポリシリアル相関を求めなければなりません。
これは、ご存じかもしれませんが、例えば工業のデータ解析ですと、仕入れ先が3つでA社、B社、C社という場合は、変数名「仕入先」になっているところを、変数A社、B社、C社というように別々に列を設け、該当する行に1を立てます。(その後、仕入れ先という名義尺度の列は削除します)そのうえで、各社の01データと量的変数の相関をポリシリアル相関で求めます。

では、「仕入先」そのものが結果にどれだけ効いているかですが、これを行う統計分析手法は「共分散分析」です。添付して頂いたリンク先に相関比の説明が書いてありますとおり、2乗和の分解ですから考え方は同じです。ですが、リンク先の式を見れば分かるように相関比は他の因子の影響を排除していませんので、多変量には向きません。

以下は補足です。

①ワンホット化は古典統計の数量化に似ていますが、数量化は上の例ですとC社という変数は作りません。それは、A社B社C社の列を足すと常に1になり線形制約が入ってしまうからです。回帰に持ち込むときは数量化か正則化回帰でやって下さい。

②相関と回帰の関係ですが、簡単のために単相関、単回帰で説明すると、共変量Sxyの値をSx、Syで基準化しているのが相関係数(ただし、ディメンジョンを合わせるために√Sx、√Syで割っている)で、共変量SxyをSxで基準化しているのが回帰係数です。
結局同じSxyという共変量を見ていることになりますね。Sxyは列間の積和すなわち内積なのです。内積が0のときは直交しますから、相関が0になる列を直交列とか言います。また、相関は横軸、縦軸とも基準化していますので、傾きは常に45°になります。
何を言いたいかですが、相関係数=標準偏回帰係数ではありません。見ているものは共変量Sxyで同じですが値は違います。ここを端折ってしまい、誤解を与えてしまいました。すみません。

③もうお分かりだと思いますが、名義尺度と量的変数の「共変量」なんて考えられませんので、関係の強さってそれでは分からないのですが、2因子モデルならば、
y=A+e
y=A+B+e'
というように、名義尺度Bをモデルに加えたとき、残差平方和eが小さくなれば、Bは効いていると判断できますよね。こうやって調べるしかありません。これが共分散分析です。リンク先と同じ意味じゃん、と言われればそうですが、それは理解している証拠です。
    • good
    • 0
この回答へのお礼

正月に詳しい解説をしていただいて大変感謝しています。
心からそう思っています。
名義尺度も二値化すれば連続量との相関をポリシリアル相関をもとめられることを理解しました。
そして多変量解析では
説明変数の目的変数に対する影響度を知るためにそれぞれの相関比を求めるだけでなく共分散分析をすることが必要で
この分析によりそれぞれ説明変数の目的変数に対する影響度を知るだけでなく
それらの説明変数の影響を取り除いた目的変数の群間比較もできるようになる。一石二鳥で素晴らしい分析手法と感じました。
そこで連続量、名義尺度の両方を説明変数に用いる時は
説明変数の目的変数に対する影響度を知るために
偏回帰係数をひかくするのでなく、残差平方和を比較するすればよい。
大体の流れをつかむことができました!

お礼日時:2021/01/02 15:16

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!