
No.1ベストアンサー
- 回答日時:
企業で統計を推進する立場の者です。
質的変数どうし、あるいは質的変数と量的変数の相関を「ピアソンの積率相関」で計算すると、実際の関連性の強さより小さめに出ます。
質的変数と量的変数の相関は「ポリシリアル相関」という相関係数を使えば良いです。
質的変数と質的変数の相関は「ポリコリック相関」、特に2値どうしの相関は「テトラコリック相関」というものを用います。
ちなみに、量的変数と量的変数の相関は一般的に使われる相関係数が「ピアソンの積率相関」です。
標準偏回帰係数を見るというのは、式の形を見れば分かりますが、ピアソンンの積率相関と同じです。
Rであれば、全てひとつのライブラリ「polycor」で計算できます。
いつもお世話になっております。
詳しい解説をありがとうございます。
標準偏回帰係数は相関係数でありことを忘れていました。
指摘していただきありがとうございます。
一点だけ質問させてください。自分の説明不足だったのですが
今回、名義尺度と量的変数との相関を見たいのですが
その場合もポリシリアル相関は使えますか?
順序尺度×量的変数はポリシリアル相関係数
名義尺度×量的変数は相関比
を使うとネットで調べたら出てきました。
https://qiita.com/shngt/items/45da2d30acf9e84924b7
No.2
- 回答日時:
#1です。
コメントありがとうございます。
名義尺度は、いったん01化、すなわちワンホット・エンコーディングをしてポリシリアル相関を求めなければなりません。
これは、ご存じかもしれませんが、例えば工業のデータ解析ですと、仕入れ先が3つでA社、B社、C社という場合は、変数名「仕入先」になっているところを、変数A社、B社、C社というように別々に列を設け、該当する行に1を立てます。(その後、仕入れ先という名義尺度の列は削除します)そのうえで、各社の01データと量的変数の相関をポリシリアル相関で求めます。
では、「仕入先」そのものが結果にどれだけ効いているかですが、これを行う統計分析手法は「共分散分析」です。添付して頂いたリンク先に相関比の説明が書いてありますとおり、2乗和の分解ですから考え方は同じです。ですが、リンク先の式を見れば分かるように相関比は他の因子の影響を排除していませんので、多変量には向きません。
以下は補足です。
①ワンホット化は古典統計の数量化に似ていますが、数量化は上の例ですとC社という変数は作りません。それは、A社B社C社の列を足すと常に1になり線形制約が入ってしまうからです。回帰に持ち込むときは数量化か正則化回帰でやって下さい。
②相関と回帰の関係ですが、簡単のために単相関、単回帰で説明すると、共変量Sxyの値をSx、Syで基準化しているのが相関係数(ただし、ディメンジョンを合わせるために√Sx、√Syで割っている)で、共変量SxyをSxで基準化しているのが回帰係数です。
結局同じSxyという共変量を見ていることになりますね。Sxyは列間の積和すなわち内積なのです。内積が0のときは直交しますから、相関が0になる列を直交列とか言います。また、相関は横軸、縦軸とも基準化していますので、傾きは常に45°になります。
何を言いたいかですが、相関係数=標準偏回帰係数ではありません。見ているものは共変量Sxyで同じですが値は違います。ここを端折ってしまい、誤解を与えてしまいました。すみません。
③もうお分かりだと思いますが、名義尺度と量的変数の「共変量」なんて考えられませんので、関係の強さってそれでは分からないのですが、2因子モデルならば、
y=A+e
y=A+B+e'
というように、名義尺度Bをモデルに加えたとき、残差平方和eが小さくなれば、Bは効いていると判断できますよね。こうやって調べるしかありません。これが共分散分析です。リンク先と同じ意味じゃん、と言われればそうですが、それは理解している証拠です。
正月に詳しい解説をしていただいて大変感謝しています。
心からそう思っています。
名義尺度も二値化すれば連続量との相関をポリシリアル相関をもとめられることを理解しました。
そして多変量解析では
説明変数の目的変数に対する影響度を知るためにそれぞれの相関比を求めるだけでなく共分散分析をすることが必要で
この分析によりそれぞれ説明変数の目的変数に対する影響度を知るだけでなく
それらの説明変数の影響を取り除いた目的変数の群間比較もできるようになる。一石二鳥で素晴らしい分析手法と感じました。
そこで連続量、名義尺度の両方を説明変数に用いる時は
説明変数の目的変数に対する影響度を知るために
偏回帰係数をひかくするのでなく、残差平方和を比較するすればよい。
大体の流れをつかむことができました!
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 物理学 アインシュタインの質量とエネルギーの等価性(E=mc²)って間違ってますよね? 4 2023/01/14 13:29
- 物理学 ファンデルワールス状態方程式の臨界時の状態量を求める際、臨界体積VrはVの3次関数の極値でもあり変曲 1 2023/03/25 17:51
- 統計学 アンケート調査のデータ比較をする際の統計分析方法の選択に迷っています 5 2022/04/15 01:05
- 数学 関数論で一次変換を学ぶ意義 1 2022/06/03 15:59
- 統計学 学業成績に関する重回帰分析の見方について 4 2022/06/06 17:19
- 統計学 直線の傾き(回帰係数)から相関係数を計算できるのでしょうか? 2 2022/09/16 19:28
- 統計学 ある変数XとYの相関係数が0.8でZの影響を除いたXとYの偏相関係数が-0.8の時、XとZ,YとZの 3 2023/04/30 19:26
- 統計学 お世話になっています. x軸は時間(期間)y軸はある値に対する2つのグラフ比較をしますが、私個人の考 2 2023/03/30 11:42
- 統計学 値上げ価格についての質問です。 3 2023/06/10 21:50
- 大学・短大 【マクロ経済学】 ①輸入に占める製品の比率が上昇すると、乗数の波及効果にはどのような影響があるか? 1 2023/01/26 12:59
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
偏差値50~55の差と偏差値70~7...
-
人類が誕生してから現在までに...
-
以下の場合に全部で何種類の数...
-
ヒストグラムを作るんですけど ...
-
身長が高くなると出生率が下が...
-
大手金融機関が預入金額5百万円...
-
HADという統計分析ソフトを使っ...
-
共用の一つの道具の平均使用回...
-
アンケート結果の解析について
-
仮説検定でコインが公平かどうか
-
【数学】確率変数の畳み込みに...
-
昔はテレビ番組は母数の一番大...
-
統計手法についてご質問です
-
たくさんの赤球と白球があり、...
-
のべ人員の計算 例 国松警察官...
-
2023年のデータで30ヶ国から得...
-
統計学
-
経験的に正しいと思っているこ...
-
我々が日常的に感じていること...
-
テレビでバラエティ番組やお笑...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
身長が高くなると出生率が下が...
-
大手金融機関が預入金額5百万円...
-
ヒストグラムを作るんですけど ...
-
人類が誕生してから現在までに...
-
消費税10%の税抜き計算と10%OFF...
-
正規分布と対数正規分布の違い...
-
たくさんの赤球と白球があり、...
-
経験的に正しいと思っているこ...
-
統計
-
高校数学 条件付き確率
-
3枚の異なる種類の硬貨を同時に...
-
HADという統計分析ソフトを使っ...
-
75%を7分の5外す確率って何%で...
-
ノンパラメトリック検定の多重...
-
番号の組み合わせパターン
-
偏差値が50が確率的に1/2なのは...
-
じゃんけんを8回中3勝以上する...
-
昔はテレビ番組は母数の一番大...
-
以下の場合に全部で何種類の数...
-
増加率の平均について
おすすめ情報