
No.1ベストアンサー
- 回答日時:
企業で統計を推進する立場の者です。
質的変数どうし、あるいは質的変数と量的変数の相関を「ピアソンの積率相関」で計算すると、実際の関連性の強さより小さめに出ます。
質的変数と量的変数の相関は「ポリシリアル相関」という相関係数を使えば良いです。
質的変数と質的変数の相関は「ポリコリック相関」、特に2値どうしの相関は「テトラコリック相関」というものを用います。
ちなみに、量的変数と量的変数の相関は一般的に使われる相関係数が「ピアソンの積率相関」です。
標準偏回帰係数を見るというのは、式の形を見れば分かりますが、ピアソンンの積率相関と同じです。
Rであれば、全てひとつのライブラリ「polycor」で計算できます。
いつもお世話になっております。
詳しい解説をありがとうございます。
標準偏回帰係数は相関係数でありことを忘れていました。
指摘していただきありがとうございます。
一点だけ質問させてください。自分の説明不足だったのですが
今回、名義尺度と量的変数との相関を見たいのですが
その場合もポリシリアル相関は使えますか?
順序尺度×量的変数はポリシリアル相関係数
名義尺度×量的変数は相関比
を使うとネットで調べたら出てきました。
https://qiita.com/shngt/items/45da2d30acf9e84924b7
No.2
- 回答日時:
#1です。
コメントありがとうございます。
名義尺度は、いったん01化、すなわちワンホット・エンコーディングをしてポリシリアル相関を求めなければなりません。
これは、ご存じかもしれませんが、例えば工業のデータ解析ですと、仕入れ先が3つでA社、B社、C社という場合は、変数名「仕入先」になっているところを、変数A社、B社、C社というように別々に列を設け、該当する行に1を立てます。(その後、仕入れ先という名義尺度の列は削除します)そのうえで、各社の01データと量的変数の相関をポリシリアル相関で求めます。
では、「仕入先」そのものが結果にどれだけ効いているかですが、これを行う統計分析手法は「共分散分析」です。添付して頂いたリンク先に相関比の説明が書いてありますとおり、2乗和の分解ですから考え方は同じです。ですが、リンク先の式を見れば分かるように相関比は他の因子の影響を排除していませんので、多変量には向きません。
以下は補足です。
①ワンホット化は古典統計の数量化に似ていますが、数量化は上の例ですとC社という変数は作りません。それは、A社B社C社の列を足すと常に1になり線形制約が入ってしまうからです。回帰に持ち込むときは数量化か正則化回帰でやって下さい。
②相関と回帰の関係ですが、簡単のために単相関、単回帰で説明すると、共変量Sxyの値をSx、Syで基準化しているのが相関係数(ただし、ディメンジョンを合わせるために√Sx、√Syで割っている)で、共変量SxyをSxで基準化しているのが回帰係数です。
結局同じSxyという共変量を見ていることになりますね。Sxyは列間の積和すなわち内積なのです。内積が0のときは直交しますから、相関が0になる列を直交列とか言います。また、相関は横軸、縦軸とも基準化していますので、傾きは常に45°になります。
何を言いたいかですが、相関係数=標準偏回帰係数ではありません。見ているものは共変量Sxyで同じですが値は違います。ここを端折ってしまい、誤解を与えてしまいました。すみません。
③もうお分かりだと思いますが、名義尺度と量的変数の「共変量」なんて考えられませんので、関係の強さってそれでは分からないのですが、2因子モデルならば、
y=A+e
y=A+B+e'
というように、名義尺度Bをモデルに加えたとき、残差平方和eが小さくなれば、Bは効いていると判断できますよね。こうやって調べるしかありません。これが共分散分析です。リンク先と同じ意味じゃん、と言われればそうですが、それは理解している証拠です。
正月に詳しい解説をしていただいて大変感謝しています。
心からそう思っています。
名義尺度も二値化すれば連続量との相関をポリシリアル相関をもとめられることを理解しました。
そして多変量解析では
説明変数の目的変数に対する影響度を知るためにそれぞれの相関比を求めるだけでなく共分散分析をすることが必要で
この分析によりそれぞれ説明変数の目的変数に対する影響度を知るだけでなく
それらの説明変数の影響を取り除いた目的変数の群間比較もできるようになる。一石二鳥で素晴らしい分析手法と感じました。
そこで連続量、名義尺度の両方を説明変数に用いる時は
説明変数の目的変数に対する影響度を知るために
偏回帰係数をひかくするのでなく、残差平方和を比較するすればよい。
大体の流れをつかむことができました!
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
できるだけ上位の美女を選んで...
-
消費税10%の税抜き計算と10%OFF...
-
【数数学理論・統計学・サイコ...
-
国や自治体(あるいは研究機関...
-
平均値と、中央値の違いを教え...
-
中学2年 数学のカレンダーの問...
-
昔はテレビ番組は母数の一番大...
-
統計検定について
-
たくさんの赤球と白球があり、...
-
5%で当たるクジを2回引いた場...
-
番号の組み合わせパターン
-
テレビでバラエティ番組やお笑...
-
HADという統計分析ソフトを使っ...
-
確率の求め方
-
標準偏差の計算について
-
サイコロを投げて6が連続して10...
-
ブラック・ショールズ方程式を...
-
z値p値とはなんですか?
-
1000万の1の確率のくじを10回...
-
データサイエンティストになる...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
平均値と、中央値の違いを教え...
-
できるだけ上位の美女を選んで...
-
有効数字の扱い方について
-
中学2年 数学のカレンダーの問...
-
【数数学理論・統計学・サイコ...
-
国や自治体(あるいは研究機関...
-
上澄み人材(IQ130以上)の数から...
-
偏差値50~55の差と偏差値70~7...
-
消費税10%の税抜き計算と10%OFF...
-
HADという統計分析ソフトを使っ...
-
ノンパラメトリック検定の多重...
-
正規分布と対数正規分布の違い...
-
統計学の問題を教えてほしいです。
-
3枚の異なる種類の硬貨を同時に...
-
統計学
-
数学 確率統計
-
統計
-
仮説検定でコインが公平かどうか
-
サイコロを投げて6が連続して10...
-
うーんどうしても変換されない...
おすすめ情報