アプリ版:「スタンプのみでお礼する」機能のリリースについて

重回帰分析において利用するダミー変数に偏りがある時、どうすればよいのでしょうか?
例えば0と1のダミー変数を説明変数として利用するとき、0が9割、1が1割の割合だった場合そのまま分析を行ってよいのでしょうか?何か調整法があるのですか?別の手法で分析するべきですか?

A 回答 (2件)

#1です。



書き忘れましたが、注意点です。

01データのダミー変数が男女というように項目(変数)が1つであれば問題ありません。
ところが、下記のような場合は問題があります。

たとえば
習熟度123を、それぞれ該当するところに1を立て、
初心者01
中級者01
上級者01
というようにダミー変数化すると、3つの変数の間に線形制約が入りますので一般の重回帰分析ではXTXの逆行列がとれなくなり、解けません。
このとき、習熟度は順序尺度なので、ダミー変数化せずに用います。

次に、
住宅種類123は
戸建て01
マンション01
賃貸01
というようにダミー変数化するしかありません。住宅種類は名義尺度だからです。でも線形制約が入り解けません。

このときは、L1正則化回帰ラスー(ラッソという人もいます)を用います。

住宅種類としてまとめてモデル式に効いているかどうか知りたいときは、戸建て、マンション、賃貸の間にはL2正則の罰則をかけ、住宅種類は他の、年収、勤続年数などと並列にL1正則の罰則をかけます。これはグループ・ラスーという回帰方法です。
    • good
    • 1
この回答へのお礼

回答ありがとうございます。
大変参考になりました。

お礼日時:2018/10/27 18:39

企業でSQCを推進する者です。

博士(工学)です。

数量化Ⅰ類では、ダミー変数は、切片の変更のみに反映することが多いですが、
ご質問者は、そのxに係数βを与えたいとお考えなのですね。

でもご心配なく。そのまま行えば良いです。
多くのソフトでは、内部で「中心化」を行ってから、
β=(XTX)^-1XTy
でβを求めます。(Tは転置です)
ですから、回帰上の原点は、重心になっていますので大丈夫です。
βの信頼限界は0側が原点に近いですので、1側が広くなります。
データ数が少ないから、信頼限界も広がると思えばいいですよね。

ところで、この説明は中心化あり、の場合で有効です。
私は理系のため、中心化したXTXを用いますが、
経済系の人たちは、中心化せず、さらには定数項列(1が並ぶ列)を加えてXTXをとります。
ですが、このときも結果は一致しますので、問題はありません。
ただ、後者がなぜ、回帰線が結果的にデータ重心を通るのかを説明しろと言われても、勉強不足のためできません。すみません。
    • good
    • 2

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!