
No.4ベストアンサー
- 回答日時:
#3です。
補足コメントありがとうございます。書いて頂いたとおり「『駅から遠ざかり』店舗面積を増やすと売り上げが良くなる」
あるいは「駅に近く『店舗面積を減らす』と売り上げが良くなる」という、「どちらかの変数が逆転する」という現象が生じますね。
本来なら「駅に近く店舗面積を増やすと売り上げが良くなる」ハズですよね。実は店舗面積はほぼ一定なので無相関です。だから事実としては、「駅に近く駐車場面積を増やすと売り上げが良くなる」ですが、駐車場の面積は変数に入っていません。この影響がどちらかの変数の効果を狂わせます。
このような前方媒介変数の影響は、観測されているx1,x2から計算したVIFやCNには現れませんので、一般の解析者はミスリードに気づくことができません。
このような状況に陥らないためには、ドメインの知識や業務の理解が重要だと思います。「これって、係数の符号が逆じゃない?」「これって、駐車場の広さが効いているんじゃない?」と気づくことができるかどうかです。
拙い質問をくみ取っていただきありがとうございます。
ミスリードを起こさないためには、手法どうこうより、
結果を鵜呑みにせず、分析対象の性質を考慮して結果を考察するのが大切ということですね。
VIF、CN、また相関係数行列などについて詳しく調べてみます。
丁寧にご回答頂きありがとうございました。
No.3
- 回答日時:
結論をミスリードするようなケースを未然に防ぐ方法として指標値VIFとCNがあります。
VIF(Variance Inflation Factor)はある説明変数を目的変数として他の説明変数で回帰を行ったとき、どれだけ説明を受けているかの指標です。
説明変数ごとに計算されます。
小さいほど良いです。最良が1です。5以下であることが望ましいとされています。
CN(Condition Number)は説明変数全体の従属性の指標です。説明変数の分散共分散行列の最大固有値を最小固有値で割ったものです。
線形制約があると最小固有値がゼロ漸近しますので、CNは膨大化します。
説明変数全体を評価する指標です。
小さいほど良いです。最良が1です。10以下が望ましいとされています。
これらは大抵の統計ソフトは表示してくれるハズです。
ただし、これで見つからないのが、前方媒介という厄介な潜在変数の存在です。(→は「影響を与える」と読んでください)
駅からの距離→売り上げ
(店舗面積→駐車場の面積)→売り上げ
駅からの距離を考慮しなければ、店舗面積が大きいときは駐車場は狭くなります。それらが総合して売り上げに寄与します。これらは相殺して、売り上げへの寄与は見られないかもしれません。
ここで、駅からの距離と店舗面積の関係を調べても異常は見つかりません。
しかし、併せて解析を行うと、駅からの距離は駐車場の面積に影響を与え、()内の見かけ上の効果を狂わせます。
駐車場の面積は観測されていない変数で、しかも、取り上げた変数の後方ではなく前方にありますので、前方媒介変数と言います。
No.2
- 回答日時:
類似の現象が起きるケースを事例で説明します。
①コンビニの売り上げ
店舗面積x1と売り上げyの相関は無かった。
駅からの距離x2と売り上げyには負の相関が見られた。
店舗面積x1と駅からの距離x2には相関は無かった。
でも、重回帰分析を行うと店舗面積x1が効いていた。
これは、駅からの距離を変数に加えると、実は駐車場の面積は増えているというプラスの潜在効果が店舗面積という項に現れてくるのです。
このケースでは、結論をミスリードしますので注意が必要です。
②学歴と年収(逆のケースです)
最終学歴x1と年収yには相関が見られた。
高度な資格(医師,パイロット等)x2と年収には相関が見られた。
最終学歴とx1と資格x2には相関が見られた。
重回帰分析を行うと最終学歴x1の効果は無かった。
これは、削除変数バイアスの一種です。片方の因子で説明ができてしまうと、もう片方が説明に寄与できなくなるという現象です。
どんな研究をされているか分かりませんが、潜在因子や疑似相関を慎重に調べられることをお勧めします。
ついでに、
ごめんなさいね。既に閉じられているご質問への口出しです。
前問(相関係数と回帰係数に関するご質問)でyhr2さんが、
「相関係数は、2つの変数間の「直線的な関係の強さ」を示す指標です。
変数が3つ以上になったら使えません。」
と回答されていますが、間違いです。
何次元であっても、相関係数行列として計算されます。
間違いを指摘しようと思っていたら、閉じられてしまいましたので・・・。
以下は説明です。無視して下さい。
例えば、x,y,zの3次元区間で、データが葉巻型UFOのような回転楕円体の形に分布しているとします。
このx,y,z軸を全て1に基準化したときの共変量が相関係数行列に一致します。
x,y,zの列を持つデータ配列をXとすると(行数はnとします)、
多次元の内積(XTX)(Tは転置)は分散共分散行列のn倍になります。
XTXをデータ数nで割った各要素を、対応するXTXの右下がり対角成分の各要素(分散)の平方根で割れば相関係数行列になります。
あるいは、x,y,zをそれぞれ基準化してXTXを計算しnで割れば相関係数行列になります。
No.1
- 回答日時:
x1とx2との相関が無い、すなわち独立であるときには、そのような現象は生じ得ません。
x1からyに向かうパスが、直接パスも、x2を経由するパスも無いわけですから。
独立であれば、交互作用項を設けることができ、もしかすると、x1の寄与も観測されるかもしれませんね。
交互作用項は、それぞれの平均を引いて中心化したものを掛け合わせ、x1x2という項を新たに作ります。それを加えて重回帰分析をすれば良いです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
今、見られている記事はコレ!
-
弁護士が解説!あなたの声を行政に届ける「パブリックコメント」制度のすべて
社会に対する意見や不満、疑問。それを発信する場所は、SNSやブログ、そしてニュースサイトのコメント欄など多岐にわたる。教えて!gooでも「ヤフコメ民について」というタイトルのトピックがあり、この投稿の通り、...
-
弁護士が語る「合法と違法を分けるオンラインカジノのシンプルな線引き」
「お金を賭けたら違法です」ーーこう答えたのは富士見坂法律事務所の井上義之弁護士。オンラインカジノが違法となるかどうかの基準は、このように非常にシンプルである。しかし2025年にはいって、違法賭博事件が相次...
-
釣りと密漁の違いは?知らなかったでは済まされない?事前にできることは?
知らなかったでは済まされないのが法律の世界であるが、全てを知ってから何かをするには少々手間がかかるし、最悪始めることすらできずに終わってしまうこともあり得る。教えてgooでも「釣りと密漁の境目はどこです...
-
カスハラとクレームの違いは?カスハラの法的責任は?企業がとるべき対応は?
東京都が、客からの迷惑行為などを称した「カスタマーハラスメント」、いわゆる「カスハラ」の防止を目的とした条例を、全国で初めて成立させた。条例に罰則はなく、2025年4月1日から施行される。 この動きは自治体...
-
なぜ批判コメントをするの?その心理と向き合い方をカウンセラーにきいた!
今や生活に必要不可欠となったインターネット。手軽に情報を得られるだけでなく、ネットを介したコミュニケーションも一般的となった。それと同時に顕在化しているのが、他者に対する辛らつな意見だ。ネットニュース...
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
できるだけ上位の美女を選んで...
-
有効数字の扱い方について
-
平均値と、中央値の違いを教え...
-
国や自治体(あるいは研究機関...
-
中学2年 数学のカレンダーの問...
-
【数数学理論・統計学・サイコ...
-
人類が誕生してから現在までに...
-
統計検定について
-
仮説検定でコインが公平かどうか
-
統計検定二級受かるのは難しい...
-
統計学
-
確率変数 Xは2項分布B(n,0.8)に...
-
統計学
-
未婚男性の平均寿命は67歳だそ...
-
袋Aには赤玉が2個、白玉が3個入...
-
相関係数 標準偏差で割る意味
-
以下の場合に全部で何種類の数...
-
HADという統計分析ソフトを使っ...
-
ノンパラメトリック検定の多重...
-
上澄み人材(IQ130以上)の数から...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
おすすめ情報
kamiyasiro様
非常に分かりやすいご説明ありがとうございます。
説明変数同士に相関がないようにみえても
「説明変数と目的変数を媒介する因子」と説明変数の相関に注意しなければならないということですね。
事例①の重回帰分析の結果について、
(売上)=a1×(店舗面積)+a2×(駅からの距離)+b
という回帰式が求まると思います。
・このa1は(駅からの距離)が一定の場合の「(店舗面積)の(売上)への影響」を表す
・(駅からの距離)→(駐車場面積)なので、(駅からの距離)が一定ならば(駐車場面積)が一定
・すると(店舗面積)と(駐車場面積)の(売上)への効果が相殺することなく(店舗面積)が見かけ上影響あるように見える
というイメージで間違いないでしょうか?
また、確かにこのケースでは「駅からの距離と店舗面積を増やすと売り上げが良くなる」
という駐車場面積を考慮していないミスリードを起こしてしまいそうです。
駐車場面積を考慮するにはどのような分析をすべきだったのでしょうか。