詳しい人求む！

重回帰分析というものおよび多重共線性の問題について

締切済

質問者：skmsk19410
質問日時：2017/02/26 01:29
回答数：4件

重回帰分析では,fという量を説明するためにx,y,zという説明変数によってf=ax+by+cz+dと表示した式のa,b,c,dを求める操作を行うと思います。ここで、どの量が一番fに対して効くのかを考える場合、もちろんa,b,c,dの絶対値が大きいものということになるのでしょうか。ax,by,cz,dの絶対値ではないかと思うのですが。それともx, y, zについて正規化を行った上で重回帰分析をするのかなとは思いますが。（そも重回帰分析とは多変数の最小二乗法ということでしょうか。）また、この説明変数(x,y,z)の次元が異なる場合(つまりa,b,cの次元も異なる)や、値そのものの絶対値が大きく異なる量の場合はどのように考えるのでしょうか。解析ツールだと次元を理解することはなく、数値的に処理が進んでいくはずですが。寄与が高い変数を調べるだけだったら、単に相関係数を調べればいいのかなとも思うのですが。
　また、x, y, zについてお互いの独立性を見て従属性が強い場合（共線性あり）には重回帰分析の処理を工夫する必要があるとのことです。共線性を嫌うということは式の上でも、また雰囲気としてもよく分かることだと思います。相関係数を用いた共線性の指標もあるようです。ここで質問ですが、共線性がある変数で重回帰分析を行った場合、どのような問題が生じるのでしょうか。ネットで見ると計算が不安定になるという説明があったりしますが。大きなミスが生じてもそれに気づかないというようなことなのでしょうか。
　さらに１つお尋ねしますが、多重共線性のチェックを行ってその指標を提示した上で、重回帰分析にかけるという処理をしたら、信頼性の指数付きの結果だと言えると思います。そのような処理は定形処理のはずですからRなどでも全部含めて処理してくれるのではないかと思いますが、そういう風になっていないでしょうか。つまりデータだけ放り込めば共線性の問題まで含めて結果が出てくるというような。プログラムを自作することも可能ですが、”世界に１つだけのプログラム”で済むわけですから自前でやることはないと思っているのですが。

長文ですみませんが、よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者： kamiyasiro
回答日時：2017/03/04 06:51

#3です。

正規化について、

・ご質問者のようにN(0,1^2)への写像として使う人もいる。
このときは、データ列間の相関は残る。
・(XTX)^-1を掛けて、直交空間への写像として使う人もいる。
このときは、データ列間の相関は消える。

ということが分かりましたので、
上記のように訂正します。スミマセン。

- 0
- 件

通報する

No.3

回答者： kamiyasiro
回答日時：2017/03/03 01:06

#1です。

ご質問者の種々の疑問について順不同で回答します。
不足があれば、再度コメントをお願いします。

①正規化について
正規化とは、元データの配列に分散共分散行列の逆行列を掛け、
正規直交系に写像することです。主成分分析やマハラノビスの
汎距離を求めるときに行われる操作です。
この写像により、任意の２データ間の距離（ノルム）も基準化
されます。
重回帰分析でこれをやると、主成分回帰という手法になってしまいます。

②基準化すると予測式にならないのか
重回帰分析の回帰線は、説明変数データ配列X（p次元空間）の重心と
目的変数fの重心を必ず通ります。
横軸の重心と縦軸の重心を通るシーソーのような感じになります。
基準化とは、重心を原点に持ち来すよう写像しているだけなので、
標準偏回帰係数を用いて作った式のx,y,zに代入する値は元データを
変換した値とすれば、その結果求められた予測値は写像先の空間での
値になります。この写像は１対１写像なので、基準化変換の逆変換を行えば、
もとの尺度での予測式に変換されます。

③切片dについて
これは、統計ソフトによって、あるいは教科書によって
目的変数fも基準化するものと、しないものがあって、
こうだ！と言い切れないのが歯がゆいですが、
目的変数fも基準化していると、確かに切片は消えます。
ただ、fについて逆変換を行なえば良いだけです。
統計ソフトで、標準偏回帰係数の欄の定数項が空欄になっている場合は
目的変数も基準化しています。

④単位が違うからこそ、基準化が必要
黒点活動って発想が面白いですが、横軸のスケールのオーダーが
違い過ぎると重回帰式の傾きもオーダー違いになり、
本当に効いていても、ニアリーイコール0になってしまうこともあります。
そこで、全ての横軸を現状のばらつき±3σというデータ存在幅で基準化し、
つまり±3という幅に揃えて回帰すれば、
横軸がデータ存在幅だけ動いた時に、fがどれだけ変化するかが、
直接比較できるようになります。

⑤偏回帰係数
「偏」の意味は、「他を固定した時の」というようなニュアンスがあります。
各説明変数が独立と考えると、あるいは単独で考えると、
このくらい効いているという係数です。
重回帰係数という言葉はあまり見かけません。
重相関係数、重決定係数と勘違いしておられませんか。

⑥偏相関係数
相関係数の逆行列を対角成分の平方根で基準化してマイナス符号をつけた値
です。

⑦間違ったまま解析が進むのか
説明変数データ配列Xの列間に線形制約があり、ランクが落ちていると、
XTXの行列式が0となり、XTXの逆行列が求められないため、
偏回帰係数ベクトルβが怪しくなるのですが、
その時は、CN値やVIF値を見たりしてチェックするか、
あるいはトレランス・エラー（ある説明変数が他の説明変数から説明し尽くされ
ているというエラー）が出ていないかで、チェックできます。

⑧重回帰分析は予測は正しいが要因解析はできない
偏回帰係数が大きい因子は、要因効果があると見なされがちですが、
実は、x間に共変量があると、相手を取り込んだり外したりするたびに
係数が変化して、真の効果かどうか全く分からなくなります。
このように「変数選択」の問題が加わりますので、
重回帰分析は間違った結果を招くことが多いです。
最近では、これを回避するため、最初からL1正則化回帰を行なったり、
線形構造方程式モデリング（共分散構造分析）を行なうという
アプローチが取られます。

- 0
- 件

通報する

この回答へのお礼

懇厚な回答有り難うございます（離席していました）。
今回解説して頂いた内容についてわかりやすいテキストをご推薦頂けると助かります。
図書館、専門書店を覗くと確率・統計、確率過程、共分散構造、確率モデリング、データマイニング、カルマンフィルタ、深層学習、ニューラルネットワーク、ベイズ〇〇、確率微分方程式、ブラックショールズ方程式（そこまでは行かないと思いますが）など、学習のメニューが横に広がっているように思えてしまいます。整理がつかないため、学習を深化させていく方向性が見えにくいです。
よろしくお願いします。

通報する

お礼日時：2017/03/10 12:46

No.2

回答者： kamiyasiro
回答日時：2017/03/01 00:07

#1です。

①に関して、訂正です。
正規化ではなく、N(0，1^2)への基準化ですね。

- 0
- 件

通報する

この回答へのお礼

回答ありがとうございます。以下、長文で申し訳ありません。

”N(0，1^2)への基準化”とは、平均をゼロ、分散を１になるように変数を変換することだと思います。物理量の系列があって平均、分散を求めてそれを使って新たなデータ系列を算出して、それを使って回帰分析する、ということですね。そうしますと、実際にa,b,c,dが算出されたとしても、それはｆを予測する式にはなっていないということになります。f=ax+by+cz+dで、a,b,c,dが分かったとしても、x,y,zが実際の物理量のままだとだめで、平均と分散が分かったうえでのN(0，1^2)への基準化がなされる必要があるからですが。基準化された量でf=ax+by+cz+dを計算する意味は、a,b,cの値から寄与率を計算するということなのでしょうか。例えば時系列の形が似ているものの順位を決めるというような。別の言い方をすると、予測式にはならない（平均、分散がわからないので）ということでしょうか。とすると、dは何のためにあるのだろうという疑問も出てきますが。

理解が難しくなってきたのですが、例えば、ラーメンの売り上げが太陽の黒点の変動と気温によって説明する、と決めた場合、全く違う物理量（次元も値も違う。黒点の変動＝太陽エネルギーの放射強度10の何十乗とか）を使って説明しようとするわけですからそのようなもの(f=ax+by+cz+d)は作れないということになるのでしょうか。

カルマンフィルターやニューラルネットワークだと予測可能モデルになると思うのですが。自己回帰とかマルコフ過程のようなもの（過去のデータから未来を予測）とゴチャゴチャになってきました。

また、kamiyashiro様は、統計解析処理のプロとお見受けしますが、
用語の使い方が素人風（市販テキスト風）ではないのでお尋ねします。
１．N(0，1^2)への基準化と正規化の違い
２．偏回帰係数は重回帰係数とは違うのでしょうか。
３．擬相関（x → y → f という関係のときのx → fの相関）を消すために偏相関係数を求めよ、ということかと思います。Ｘの定義は共分散行列でしょうか。偏相関係数という言葉を聞いたことがありませんでした。

またまた、長文で失礼しました。

通報する

お礼日時：2017/03/01 04:11

No.1

回答者： kamiyasiro
回答日時：2017/02/28 23:58

企業でSQCの推進を担当している者です。

①a,b,c,dの絶対値が大きいものということになるのでしょうか。
ax,by,cz,dの絶対値ではないかと思うのですが。それともx, y, zについて
正規化を行った上で重回帰分析をするのかなとは思いますが。

はい。影響度の大きさは、当然、x, y, zについて正規化を行った上で
重回帰分析をしたときの偏回帰係数を比較すべきで、そのような
偏回帰係数を「標準偏回帰係数」といいます。
多くの統計ソフトはそれを求める機能を備えています。

②寄与が高い変数を調べるだけだったら、単に相関係数を調べれば
いいのかなとも思うのですが。

そのとおりですが、次にご質問されているように、共変量の問題が
ありますので、そんなに簡単ではありません。
x → y → f という関係のとき、x → f という見かけの関係はyを媒介して
生じていますので、yをモデルに取り込むことにより消えてしまいます。
時には偏回帰係数の符号が変わることもあります。
ですから、偏相関係数を見た方が良いと思います。偏相関係数は、
擬相関を消しています。偏相関関係をグラフ化したものは
「グラフィカル・モデリング」という手法です。

③共線性がある変数で重回帰分析を行った場合、
どのような問題が生じるのでしょうか。
ネットで見ると計算が不安定になるという説明があったりしますが。

はい。βが不安定になります。偏回帰係数βは、
β＝(XTX)^-1・XT・y　＿＿＿＿（Tは転置）
で求められるのですが、共線性があるとXTXの行列式が0に近くなるので、
逆行列が不安定になり、βが安定に求められません。
また、偏回帰係数βの分散は、
V(β)＝(XTX)^-1・σf^2
ですので、共線性が強いと、V(β)→∞になります。

④そのような処理は定形処理のはずですからRなどでも全部含めて
処理してくれるのではないかと思いますが、
そういう風になっていないでしょうか。
つまりデータだけ放り込めば共線性の問題まで含めて
結果が出てくるというような。

そういう風にはなっていません。③の問題を回避するには、
罰則付き回帰（あるいは正則化回帰）、最近ではスパースモデリングと
言われている方法が用いられるべきですが、
『XTXのdet値がほぼ0ですから、L1正則化回帰ラスーに切り替えます』
なんていう、自動化されたソフトは見たことがありません。

でも、そのうち、出ると思います。

- 0
- 件

通報する

この回答へのお礼

篤厚な回答を頂き有難うございます。
③の問題について少しお尋ねします。共線性がある場合、分数における分母（＝行列式）がゼロになるということが生じ、あり得ないような数値が出力されることになるということでしょうか。そうなると結果を見たら間違っていることが明らかであり、間違ったまま先に進むおそれも少ないということにもなるのでしょうか。
①、②の問題については訂正のご回答の方に少し質問させて頂きます。

通報する

お礼日時：2017/03/01 03:29

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！