加重最小二乗法＝①「変数を自然対数変換」＝②「誤差項の分散の逆数を重み付け」？

Question

統計学の重回帰分析について学習している初学者です。

高橋将宜氏著「統計的因果推論の理論と実装」（共立出版）p117にて不均一分散について学習していたところ②のような記述と各変数に誤差項の分散（例では指数関数）の逆数をかけた式を拝見しました。

一方で社会科学関連の重回帰分析論文では、例えば「平均所得」「平均世帯人員」のような各自治体規模の差によって起こる不均一分散については、①のように説明変数を自然対数変換することで重回帰分析を行う、と述べているものが多々あります。

当方、数学的な知識が不足しており、①と②は同様の意味として考えてよろしいのでしょうか。
また、上記のような論文を作成するにあたり、不均一分散の解消　＝　「説明変数を自然対数変換」という認識で良いのでしょうか。

稚拙な文章にて恐縮ですがご教示いただければ幸いです。

kamiyasiro · Accepted Answer

違います。
長文ですみませんが、説明をさせて下さい。

①のケースは、説明変数の効果の線形化です。
説明変数を対数変換するケースは、因子の効果が線形（足し算）ではなく、相乗的（かけ算）のような場合、説明変数を対数変換することにより、見かけ上、線形多項式で近似できるということです。
対数の足し算はかけ算だからです。
年収（対数正規分布であることが多い）の回帰などでは、都市部(人口)、勤務先(従業員数)などに相乗的効果があるため、これらを対数化して使用します。
もちろん目的変数も必要に応じ対数化します。

②のケースは、誤差を等分散にする便法です。
重回帰分析は、誤差の条件に強い「４つの縛り」があります（３つにまとめているテキストもあります）。ガウス・マルコフの定理として知られています。

1)不偏性：E(εi)＝0、誤差の期待値は0
2)外生性：Cov(Xi，εi)＝0、説明変数と誤差は共分散を持たない
3)等分散性：Var(εi)＝σ^2、誤差分散は定数
4)独立性：Cov(εi，εj)＝0、誤差どおしは独立

1)2)でβは不偏推定量になり、3)4)でBLUEになります。簡単に言うと最小2乗推定量になります。

さて、いま簡単に、y＝βx＋ε という１次の予測式を考えたとき、もし、εi≈N(0，(xσ)^2) というように、誤差の標準偏差がxσつまりxに比例して大きくなっていく場合、重回帰分析が適用できません。誤差が等分散ではないからです。

そこで、両辺をXiで割ってやると、y/Xi＝β＋εi/Xi という予測式ができ、εi/Xi≈N(0，σ^2) という等分散の誤差になります。

テキストは両辺を分散で割っていますから、単回帰なら誤差はN(0，1) に従いますね。

また、上述の例では、単なる比例式ですが、テキストは誤差に影響するXiが指数関数だったと想定して指数関数で割っています。

なお蛇足ですが、最近はいちいちそんな変数変換（逆数を掛ける)をしません。上述の例であれば、一般化線形モデル（glm）で変動係数一定モデル（family＝”Gamma”）を使えば同じ解が出ます。
最近は、glmでやる人が多いです。

kamiyasiro · Answer

No.6の回答を訂正させて下さい。

誤）線形性とは足し算で表されるということで、線が曲がっていることとは違います。

正）線形性とは足し算で表されるということで、線が真っ直ぐだということとは違います。

kamiyasiro · Answer

ところで、偏回帰プロットとか、偏残差とか、98ページの記述で理解できましたか？

注目しているxi を、それ以外の説明変数で回帰した残差
目的変数y を、注目しているxi 以外の説明変数で回帰した残差

これらの残差を偏残差と言い、これら残差どうしを単回帰したものを偏残差回帰と言います。

この単回帰係数は偏回帰係数に一致します。

偏残差は、他の説明変数で説明した残り＝他の説明変数の影響を取り除いた「その変数そのものの変化傾向」を見ていることになります。

だから、注目している説明変数の関数形を類推するのには都合が良いのです。

どうでも良いことかもしれませんが、コメントに書かれた文章を読んでいると、このあたりのご理解が出来ていないのかと思いましたので、つい。

kamiyasiro · Answer

97ページで関数形のことを線形性と記述している点は、違和感を覚えました。線形性とは足し算で表されるということで、線が曲がっていることとは違います。

前後をよく読んでいないので、私の勘違いかもしれませんが・・・。

kamiyasiro · Answer

残差全体でなく、なぜ偏残差で確認しているか、ということに疑問が残ると書きましたが、

97ページ以降の記述を読んでみたところ、

・残差が広がっているとか収束していくとか、残差の分布形そのものを吟味しているのではなく、
・モデル（指数関数とか）を仮定して、そのプロットが残差を含めてモデルにフィットするかを観察し、説明変数の関数形を類推する

という使い方なので、問題ないと思いました。

残差の吟味（純粋な偶然誤差だけが残っているか否かを吟味する）ではないんですね。私はこっちだと思っていました。
ブロイシュ・ペーガンテストの話も出ていたし・・・。

それと、GLSというかFGLSで分散不均一性を回避できるという話は、すごく最近の書籍を引用していますね。新しい使い方です。これは知りませんでした。
私の勉強不足です。
Wooldridge(2020)は経済系の書籍ですね。
私は工学系なので守備範囲外でした。
定期的な学会の勉強会にも参加しているのですが、話題にも上がりませんでした。情報、ありがとうございました。

あと、「相乗的効果」を対数の足し算に直して回帰する件は、96ページやその前にも書いてありますね。
やたら自然対数にこだわっていますが、工学系では常用対数も普通に使われます。

kamiyasiro · Answer

簡単に回答できるものから、回答していきます。

確率紙プロットは残差プロットとは違います。

縦軸を任意の分布関数の累積確率にして、直線になれば、その分布に従うとみなされます。

添付図は正規確率紙です。正規分布の場合はQQプロットと、縦軸横軸が入れ替わったグラフになります。

確率紙は縦軸が不等間隔になっていることに着目して下さい。

kamiyasiro · Answer

コメント、ありがとうございました。
ご謙遜されてましたが、かなり知識がある方とお見受けしました。

1)　①の方法の目的

「母数の線形性確保（多項式で表現可能）」の認識で良いと思いますが、テキストの記載を確認してみます。残差全体でなく偏残差で確認していることに疑問が残ります。

「最良線形不偏推定量（BLUE）を満たす仮定の一つ（母数の線形性）の為に行う自然対数変換」はその本の何ページに記載されていますか？（すみません、持ってはいるんですが、読んでないので）

2)　②で残差のモデルが不明のとき

誤差項の分布の形ですが、プロット数が50くらいあれば、残差を「確率紙」に乗せることで、分布形が確認できます。

プロット数が少ない時（数点～十数点）は、何をやっても無理です。さらに、ブロイシュ・ペーガンテストも、サンプル数が少ない時は棄却されません。だから能天気に普通の線形回帰をやっている例が殆どです。

なお、回避策として「実行可能一般化最小二乗法GLS」を使え、というのは、奇異に感じました。その用途が他のテキストや私の認識と異なるからです。下記質問に対する回答のNo1をご覧下さい。

https://oshiete.goo.ne.jp/qa/12829693.html

GLSではなく、実際に内生性バイアス（x→εのパスがある）を回避する方法としては、下記のいくつかの方法があります。こちらは多くのテキストに出てきます。

ebar の最小化に基づかないフィッティング：分位点回帰
e の分布形を考慮したフィッティング：一般化線形モデル（GLM）
e の偏りを補正したフィッティング：操作変数法

このうち、因果分析の分野で多用されるのは「操作変数法」です。

kamiyasiro · Answer

#1です。

①は、説明変数だけ（イコールの片側だけ）の変換ですが、
②は、両辺を同じもので割っています。

この点からも、意図が異なることが、お分かりいただけると思います。

①は、式の意味を変えたい。
②は、イコールの関係は守りたい。誤差は等分散にしたい。

加重最小二乗法＝①「変数を自然対数変換」＝②「誤差項の分散の逆数を重み付け」？

違います。

No.6の回答を訂正させて下さい。

ところで、偏回帰プロットとか、偏残差とか、98ページの記述で理解できましたか？

97ページで関数形のことを線形性と記述している点は、違和感を覚えました。

残差全体でなく、なぜ偏残差で確認しているか、ということに疑問が残ると書きましたが、

簡単に回答できるものから、回答していきます。

コメント、ありがとうございました。

#1です。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング