プロが教える店舗&オフィスのセキュリティ対策術

エクセルで重回帰分析を行っています。ある目的変数に対する、各説明変数の影響度を見たいのですが、説明変数間に多重共線性がないことをどうやって確認すればいいでしょうか。

試しに重回帰分析を行ったところ、補正R2は0.6前後でした。これはある程度当てはまりが良い、つまり多重共線性の影響はないと考えてよいのでしょうか。

A 回答 (1件)

企業で統計を推進する立場の者です。



多重共線性と当てはまりの良さは別問題です。

説明変数間の多重共線性の有無については、全体に関してはCN値(コンディションナンバー)、個々の説明変数が他からどれだけ説明を受けているかはVIF値(バリアンス・インフラクション・ファクター)を見ます。

CNは説明変数の相関係数行列の最大固有値と最小固有値の比です。説明変数間に線形制約が入ると、0に近い固有値が現れます。これを見ています。相関係数行列の行列式を見ても同じ意味を持ちます。
VIF=1/(1-r^2)で、rはその変数を目的変数としたときの重相関係数です。他から説明を受けていればrが大きくなり、VIF値も大きくなります。

統計ソフトにはそれらを見るオプションが付いているか、多重共線性が疑われる場合はトレランスエラーという表示が出ます。そのような機能が無いソフトは使わない方が良いでしょう。エクセルではlinest関数を用いても、そのような機能は無かったと思います。

CNについては、1が最小ですが直交表でなければあり得ず、10くらいまでなら良く、30を超えると危ないです。これには諸説あります。
VIFについては、1が最小で小さいほどよく、5くらいまでなら良く、10を超えると危ないです。これも諸説あります。

一方、
R^2値は重決定係数あるいは寄与率と言われるもので、フィッティングの良さの指標です。重相関係数(予測値と実測値の単相関係数)の2乗値です。1に近いほど良いですが、どんなゴミのような変数を取り込んでも上がっていく傾向があるので、変数選択の指標として用いることはできません。そこで、どこかで逆転して悪化する指標が求められます。それが自由度調整済み寄与率、自由度二重調整済み寄与率です。ご質問者が補正と言われているのは、自由度調整済み寄与率の方だと思います。二重調整済みは日本製統計ソフトにしか無いような気がします。
これは、0.5以上あれば、まあまあ説明できていると思えば良いでしょう。なぜなら2乗する前の重相関係数が0.7程度あるからです。これも諸説あります。人文社会の世界では0.3でも回帰できたと言いますし、逆に工業の世界では0.9以上が好まれます。
なお、これを見ても多重共線性があるかどうかは分かりません。

補正とか自由度調整済みのR^2が良ければフィッティングが良いというのは間違いです。それらはあくまで変数選択の指標です。当てはまりの良さは補正していないR^2(重決定係数)で示します。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!