アプリ版:「スタンプのみでお礼する」機能のリリースについて

ダミー変数と連続変数の両方を含むデータで、重回帰分析を行おうとしています。その際、各説明変数の目的変数への影響度の大きさに興味があります。

連続変数のみの重回帰分析であれば、標準偏回帰係数の大小で影響度が比較できると思います。
またあるWebページでは、ダミー変数のみの重回帰分析(数量化1類?)では、各アイテム変数のレンジ・単回帰係数・偏回帰係数などで比較をしていました。

しかしダミー変数と連続変数が同時に含まれる場合は、各説明変数の影響の大きさをどのように比較すれば良いのでしょうか。
例えば下記参考URLのWebページで、単価・曜日・天気から売り上げ本数を予測していますが、最後の方で出てくる係数は単価、日~月までの7種類、曇~雨の3種類、の合計11種類の係数が出ています。
これを単価・曜日・天気の3種類の影響度という形にして比較する、という事は可能なのでしょうか。
偏回帰係数とレンジをそのまま比較はできないと思うのですが、方法はあるのでしょうか。

参考URL:
http://homepage2.nifty.com/nandemoarchive/toukei …

A 回答 (3件)

ANo.1へのコメントについてです。



> 私の認識だと、重回帰式に寄与率(決定係数)は1つしか無い

 どういう認識だか知りませんが、寄与率とは要するに「その説明変数がモデルに入っていることによって、データのばらつきがどれだけ説明されるか」ってことですから、当然、個々の説明変数ごとに計算されます。
    • good
    • 0

分散分析の手法を借りれば比較できます。

ただし、偏回帰係数のようなわかりやすい指標はなく、統計学的に有意かどうかしかわかりませんが。モデル中の変数として意味があるかどうかということだけですね。

Rでは、lm()のobjectをanova()すると、比較できます(最下段参照)。ただし、ダミー変数を作成してばらばらにしてしまったものは手間がかかりますので、ダミー変数を作成せずに以下のように解析したほうが楽です。SPSSでも、カテゴリ変数であることを指定すればよいのでダミー変数を作成しないほうが楽です。

> dat1 <- read.table("clipboard")
> str(dat1)
'data.frame': 19 obs. of 4 variables:
$ V1: int 198 156 123 169 97 112 120 187 170 105 ...
$ V2: int 120 130 130 120 150 100 110 100 120 130 ...
$ V3: Factor w/ 7 levels "火","金","月",..: 5 6 3 6 1 7 4 2 5 7 ...
$ V4: Factor w/ 3 levels "雨","晴","曇": 2 3 2 2 3 1 3 2 3 1 ...
> res <- lm(V1 ~ V2 + V3 + V4, data=dat1)
> summary(res)

Call:
lm(formula = V1 ~ V2 + V3 + V4, data = dat1)

Residuals:
Min 1Q Median 3Q Max
-12.738 -7.264 0.000 6.474 13.851

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 178.4320 29.1215 6.127 0.000173 ***
V2 -0.7647 0.2136 -3.580 0.005931 **
V3金 9.7863 14.3630 0.681 0.512796
V3月 -31.2715 13.4515 -2.325 0.045132 *
V3水 -16.4015 9.4070 -1.744 0.115209
V3土 33.9263 7.9941 4.244 0.002162 **
V3日 17.1166 8.1659 2.096 0.065532 .
V3木 18.0130 11.4706 1.570 0.150780
V4晴 75.2556 7.7500 9.710 4.57e-06 ***
V4曇 46.0166 7.3706 6.243 0.000151 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 11.2 on 9 degrees of freedom
Multiple R-squared: 0.9571, Adjusted R-squared: 0.9142
F-statistic: 22.32 on 9 and 9 DF, p-value: 4.095e-05

> anova(res)
Analysis of Variance Table

Response: V1
Df Sum Sq Mean Sq F value Pr(>F)
V2 1 3591.0 3591.0 28.607 0.0004632 ***
V3 6 9688.6 1614.8 12.864 0.0005748 ***
V4 2 11933.1 5966.6 47.532 1.645e-05 ***
Residuals 9 1129.8 125.5
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
>
    • good
    • 0

 ダミー変数がない場合でも、イキナリ係数を比べたって無意味です。

なぜなら、説明変数の単位はどうでも構わない。そこでたとえば「単価」の単位を1円にした場合と1億円にした場合を考えてみれば、「単価」の係数は1億倍変化してしまうでしょ。

 各説明変数を平均0、分散1になるように規格化した上で、「寄与率」を比べるんです。寄与率てのは要するに「説明能力にどれだけ貢献しているか」ですから。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
説明変数を規格化した上での比較は、標準偏回帰係数の比較によって行えば良いという認識でしたが、寄与率を比較するというのはそれとは別のことでしょうか?
私の認識だと、重回帰式に寄与率(決定係数)は1つしか無いのですが、それを比較するというのは具体的にどういう事を行うのでしょうか…?

お礼日時:2014/09/27 00:26

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!