重要なお知らせ

「教えて! goo」は2025年9月17日(水)をもちまして、サービスを終了いたします。詳細はこちら>

電子書籍の厳選無料作品が豊富!

確率統計に出てくる多重共線性の問題というのは、現象を説明しようとするとき、説明変数に高い相関がある場合、不安定になる問題とされています。私が思っていたことは、もし説明変数に完全な相関があるとしたら行列式がゼロになる(係数行列における行・列の独立性がなくなる)と言う風に理解していました。でもそう言うことではないように思えてきました。そのような懸念は現実のデータではほぼ生じないと言えそうだからです。かなり高い相関があったとしてもほんのちょっと差異があればその問題は生じないからです。ある説明では回帰平面が安定しないという説明がありました。あるいは多重共線性の懸念を示す指標にVIF(分散拡大係数)があるとのことでした。これはどのようなものなのでしょうか。回帰平面が安定しないというのは決まらないということなのでしょうか。計算しさえすれば数値的にはなんらかの値が出てくるはずなのですが、それが最良ではない可能性があるということなのでしょうか。わかりやすい説明が何かあれば教えて頂きたいのですが。
よろしくお願いします。

A 回答 (1件)

企業でSQCを推進する立場の者です。

博士(工学)です。

長文、失礼します。各疑問に答えていきます。

> 確率統計に出てくる多重共線性の問題というのは、現象を説明しようとするとき、説明変数に高い相関がある場合、不安定になる問題とされています。

まあ、そうも言えます。
不安定を正確に言うと、偏回帰係数βの分散V(β)が無限大になる、です。なぜなら、
V(β)=(XTX)^-1・σres^2・・・Tは転置を表す
この式において逆行列項の係数は1/det(XTX)で、その分母がほぼ0になるからです。
あるいは、β=(XTX)^-1・XT・y
において、XTXの逆行列が存在できませんので、βが決まりません。
なお、rank(X)=rank(XTX)=rank(XXT)です。


> 私が思っていたことは、もし説明変数に完全な相関があるとしたら行列式がゼロになる(係数行列における行・列の独立性がなくなる)と言う風に理解していました。でもそういうことではないように思えてきました。

両方あります。
det値が完全に0になるときは「正確多重共線性」と言います。(宮川雅巳「品質を獲得する技術」)そうでないときは「準多重共線性」とも言います。世間で言われる多重共線性は「準」の方です。


> そのような懸念は現実のデータではほぼ生じないと言えそうだからです。

いいえ、A,B,Cという変数があって、その平均がDに入っていると、正確多重共線性が発生します。単に相関だけでなく、線形制約が入っていると正確多重共線性が生じます。こういうデータを持ち込むやつには、イラッと来ますね。

それから、少し難しいと思いますが、例えば説明変数が200列でデータが1000個だとすると、過飽和ではないにも関わらず、「予期せぬ線形制約」が生じます。なぜなら、XTXのサイズはcombin(200,2)=19900ですが、それだけの未知数に対してデータが1000個しかないために解くことができず、相関係数行列の各値はほぼ従属になってしまうのです。標準正規乱数でX行列を作ってみると、どの2列を取っても相関係数はほぼ0にも関わらず、XTXのdet値を計算すると10のマイナス40乗とかになります。このように高次元データ(ビッグデータ)では、多重共線性は現実の問題として常に存在するのです。


> かなり高い相関があったとしてもほんのちょっと差異があればその問題は生じないからです。

いいえ、det値が10のマイナス5乗くらいより小さい場合は、かなりヤバイです。何がヤバイかと言うと、βの大きさの順序が入れ替わったり、本来とは符号が逆転したりします。


> ある説明では回帰平面が安定しないという説明がありました。

そのとおりです。
重回帰式はy=C+β1x1+β2x2+・・・
なので、右辺はx1,x2(各列ベクトル)の合成ベクトルです。これらが含まれる平面が回帰平面です。この平面に実測のyから法線を降ろします。この法線の長さ「ノルム」が誤差です。なぜ回帰平面と誤差が直交するするようにするのかは、「ガウス・マルコフの定理」を調べてください。簡単に言えば、説明変数と誤差は独立にしたいからです。法線が降りる位置にx1,x2の合成ベクトルが来るように、βを調整するのが重回帰分析です。
このとき、ベクトルx1,x2が極めて接近していると(相関が高いと)、回帰平面が一意に決まりません。列ベクトル=サンプルベクトルなので、サンプルが少し変わっただけで、その都度法線が降りる足の位置が変わってしまいます。


> あるいは多重共線性の懸念を示す指標にVIF(分散拡大係数)があるとのことでした。これはどのようなものなのでしょうか。

VIF値というのは、説明変数同士で説明しあっている、という値です。言い換えれば、ある説明変数が一見大きく効いていても、それは他の説明変数の影響ですよ、という値です。

VIF値は説明変数間の相関係数行列の逆行列の対角要素の値と一致します。この逆行列は精度行列とも呼ばれ、その対角要素は、特異値分解して主軸変換(正規直交系への写像)したときの写像先の軸分散になります。合成ベクトルの大きさみたいなもんです。これが大きいってことは、一杯背負っているってことです。(ちなみに、逆行列の各値を対応する対角要素(=各軸の分散)の平方根で基準化すれば、偏相関係数になります。相関係数と同じ構造ですよね。ただしマイナス符号を付ける点が違いますが)

また、ある説明変数を他の説明変数で回帰したときの重決定係数(寄与率)をR2とすると、VIF値=1/(1-R2)となるので、他から90%説明を受けているときは、VIF=10となります。これ以上が多重共線性ありのめやすとされています。

このほかの多重共線性のめやすとしてはCN値(コンディション・ナンバー=条件数)があります。これは説明変数間の相関係数行列の固有値の最大と最小(あるいは変数選択したのならp番目の)の比です。CN値はVIFのように1つ1つの変数についてではなく、回帰全体についての指標となります。これが大きい場合は多重共線性が強いと判断されます。なぜなら、線形制約が入ると最小固有値が0に近くなるからです(ちなみにdet値は固有値の積ですから、最小固有値が0に近くなるとdet値も0に近くなります)。そのめやすとしては諸説ありますが30以上です。10以下であれば安心と言われています。

トレランスというのもたまに出てきます。トレランス=1/VIFです。よって、0.1以下ですと、他を背負っていることになります。


> 回帰平面が安定しないというのは決まらないということなのでしょうか。計算しさえすれば数値的にはなんらかの値が出てくるはずなのですが、それが最良ではない可能性があるということなのでしょうか。

「最良」という言葉は、BLUE(Best liner Unbiased Estimater)で使われる言葉なので、ここでは、「過学習」という言葉が適切だと思います。計算さえすれば、何らかの値が出てきますが、それは今のデータにのみ当てはまっているだけで、新たなデータ(クエリと言います)に対する予測性能(これを汎化能力と言います)は全く無いに等しいのです。なぜなら、上で述べたように、サンプルが入れ替わると回帰平面が動くからです。汎化能力を確認する方法は「クロスバリデーション」です。サンプルを入れ替えても推定が正しく行われることを確認します。

なお、多重共線性を回避する手段は色々ありますが(朝野「入門多変量解析の実際第2版」)、代表的なのは「正則化」です。近年は「スパース・モデリング」と言われています。朝野先生の本ではリッジ回帰が紹介されています。今はラスー回帰が主流となっています。
    • good
    • 2
この回答へのお礼

回答ありがとうございます。勉強しないといけないことがまだまだあると感じているのですが、これは確率・統計の大学テキスト的な範囲を超えているように思います。このようなことを取り扱う学問分野とはどのようなものでしょうか。たとえばデータサイエンス、機械学習、スパースモデリングとか最近よく聞く分野もあると思いますが、伝統的な学問分野としてはどのようなものになるのでしょうか。数学(確率統計、線形代数)、経済学、経営学などの古典的な分類としての位置づけはどうなるでしょうか。このような内容の学問は、何を言ってるのかちんぷんかんぷんでもないのだけど、1つ1つの内容が地に足がついてないというか、知っていたはずなのに、”あれ、なんだったっけ?”ってことが多いように思うのです。正攻法的なアプローチにはどのようなものがあるのでしょうか。

お礼日時:2019/06/23 23:21

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!