重回帰分析の説明変数について

Question

重回帰分析において説明変数xとして「単回帰では目的変数yと相関が見られない変数」を選ぶことはあるのでしょうか。

もしあるのであれば、
・yとx1の単回帰分析を行うと相関があまり見られなかった
・yとx2の単回帰分析を行うと相関が見られた
・x1とx2との相関は見られなかった

以上の場合、
y,x1,x2について重回帰分析を行って
単回帰では見れなかったx1とyの相関が明らかになった。
と言うためにはどのような結果が得られたら良いのでしょうか。

kamiyasiro · Accepted Answer

#3です。補足コメントありがとうございます。

書いて頂いたとおり「『駅から遠ざかり』店舗面積を増やすと売り上げが良くなる」
あるいは「駅に近く『店舗面積を減らす』と売り上げが良くなる」という、「どちらかの変数が逆転する」という現象が生じますね。

本来なら「駅に近く店舗面積を増やすと売り上げが良くなる」ハズですよね。実は店舗面積はほぼ一定なので無相関です。だから事実としては、「駅に近く駐車場面積を増やすと売り上げが良くなる」ですが、駐車場の面積は変数に入っていません。この影響がどちらかの変数の効果を狂わせます。

このような前方媒介変数の影響は、観測されているx1,x2から計算したVIFやCNには現れませんので、一般の解析者はミスリードに気づくことができません。

このような状況に陥らないためには、ドメインの知識や業務の理解が重要だと思います。「これって、係数の符号が逆じゃない？」「これって、駐車場の広さが効いているんじゃない？」と気づくことができるかどうかです。

kamiyasiro · Answer

結論をミスリードするようなケースを未然に防ぐ方法として指標値VIFとCNがあります。

VIF（Variance Inflation Factor）はある説明変数を目的変数として他の説明変数で回帰を行ったとき、どれだけ説明を受けているかの指標です。
説明変数ごとに計算されます。
小さいほど良いです。最良が１です。５以下であることが望ましいとされています。

CN（Condition Number）は説明変数全体の従属性の指標です。説明変数の分散共分散行列の最大固有値を最小固有値で割ったものです。
線形制約があると最小固有値がゼロ漸近しますので、CNは膨大化します。
説明変数全体を評価する指標です。
小さいほど良いです。最良が１です。10以下が望ましいとされています。

これらは大抵の統計ソフトは表示してくれるハズです。

ただし、これで見つからないのが、前方媒介という厄介な潜在変数の存在です。（→は「影響を与える」と読んでください）

駅からの距離→売り上げ

（店舗面積→駐車場の面積）→売り上げ

駅からの距離を考慮しなければ、店舗面積が大きいときは駐車場は狭くなります。それらが総合して売り上げに寄与します。これらは相殺して、売り上げへの寄与は見られないかもしれません。

ここで、駅からの距離と店舗面積の関係を調べても異常は見つかりません。

しかし、併せて解析を行うと、駅からの距離は駐車場の面積に影響を与え、（）内の見かけ上の効果を狂わせます。

駐車場の面積は観測されていない変数で、しかも、取り上げた変数の後方ではなく前方にありますので、前方媒介変数と言います。

kamiyasiro · Answer

類似の現象が起きるケースを事例で説明します。

①コンビニの売り上げ
店舗面積x1と売り上げyの相関は無かった。
駅からの距離x2と売り上げyには負の相関が見られた。
店舗面積x1と駅からの距離x2には相関は無かった。
でも、重回帰分析を行うと店舗面積x1が効いていた。

これは、駅からの距離を変数に加えると、実は駐車場の面積は増えているというプラスの潜在効果が店舗面積という項に現れてくるのです。
このケースでは、結論をミスリードしますので注意が必要です。

②学歴と年収（逆のケースです）
最終学歴x1と年収yには相関が見られた。
高度な資格（医師，パイロット等）x2と年収には相関が見られた。
最終学歴とx1と資格x2には相関が見られた。
重回帰分析を行うと最終学歴x1の効果は無かった。

これは、削除変数バイアスの一種です。片方の因子で説明ができてしまうと、もう片方が説明に寄与できなくなるという現象です。

どんな研究をされているか分かりませんが、潜在因子や疑似相関を慎重に調べられることをお勧めします。

ついでに、
ごめんなさいね。既に閉じられているご質問への口出しです。

前問（相関係数と回帰係数に関するご質問）でyhr2さんが、

「相関係数は、2つの変数間の「直線的な関係の強さ」を示す指標です。
変数が3つ以上になったら使えません。」

と回答されていますが、間違いです。
何次元であっても、相関係数行列として計算されます。
間違いを指摘しようと思っていたら、閉じられてしまいましたので・・・。

以下は説明です。無視して下さい。

例えば、x,y,zの3次元区間で、データが葉巻型UFOのような回転楕円体の形に分布しているとします。
このx,y,z軸を全て１に基準化したときの共変量が相関係数行列に一致します。

x,y,zの列を持つデータ配列をXとすると（行数はｎとします）、
多次元の内積（XTX）（Tは転置）は分散共分散行列のｎ倍になります。
XTXをデータ数ｎで割った各要素を、対応するXTXの右下がり対角成分の各要素（分散）の平方根で割れば相関係数行列になります。

あるいは、x,y,zをそれぞれ基準化してXTXを計算しｎで割れば相関係数行列になります。

kamiyasiro · Answer

x1とx2との相関が無い、すなわち独立であるときには、そのような現象は生じ得ません。
x1からyに向かうパスが、直接パスも、x2を経由するパスも無いわけですから。

独立であれば、交互作用項を設けることができ、もしかすると、x1の寄与も観測されるかもしれませんね。

交互作用項は、それぞれの平均を引いて中心化したものを掛け合わせ、x1x2という項を新たに作ります。それを加えて重回帰分析をすれば良いです。

重回帰分析の説明変数について

#3です。

結論をミスリードするようなケースを未然に防ぐ方法として指標値VIFとCNがあります。

類似の現象が起きるケースを事例で説明します。

x1とx2との相関が無い、すなわち独立であるときには、そのような現象は生じ得ません。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング