
統計学の重回帰分析について学習している初学者です。
高橋将宜氏著「統計的因果推論の理論と実装」(共立出版)p117にて不均一分散について学習していたところ②のような記述と各変数に誤差項の分散(例では指数関数)の逆数をかけた式を拝見しました。
一方で社会科学関連の重回帰分析論文では、例えば「平均所得」「平均世帯人員」のような各自治体規模の差によって起こる不均一分散については、①のように説明変数を自然対数変換することで重回帰分析を行う、と述べているものが多々あります。
当方、数学的な知識が不足しており、①と②は同様の意味として考えてよろしいのでしょうか。
また、上記のような論文を作成するにあたり、不均一分散の解消 = 「説明変数を自然対数変換」という認識で良いのでしょうか。
稚拙な文章にて恐縮ですがご教示いただければ幸いです。
No.1ベストアンサー
- 回答日時:
違います。
長文ですみませんが、説明をさせて下さい。
①のケースは、説明変数の効果の線形化です。
説明変数を対数変換するケースは、因子の効果が線形(足し算)ではなく、相乗的(かけ算)のような場合、説明変数を対数変換することにより、見かけ上、線形多項式で近似できるということです。
対数の足し算はかけ算だからです。
年収(対数正規分布であることが多い)の回帰などでは、都市部(人口)、勤務先(従業員数)などに相乗的効果があるため、これらを対数化して使用します。
もちろん目的変数も必要に応じ対数化します。
②のケースは、誤差を等分散にする便法です。
重回帰分析は、誤差の条件に強い「4つの縛り」があります(3つにまとめているテキストもあります)。ガウス・マルコフの定理として知られています。
1)不偏性:E(εi)=0、誤差の期待値は0
2)外生性:Cov(Xi,εi)=0、説明変数と誤差は共分散を持たない
3)等分散性:Var(εi)=σ^2、誤差分散は定数
4)独立性:Cov(εi,εj)=0、誤差どおしは独立
1)2)でβは不偏推定量になり、3)4)でBLUEになります。簡単に言うと最小2乗推定量になります。
さて、いま簡単に、y=βx+ε という1次の予測式を考えたとき、もし、εi≈N(0,(xσ)^2) というように、誤差の標準偏差がxσつまりxに比例して大きくなっていく場合、重回帰分析が適用できません。誤差が等分散ではないからです。
そこで、両辺をXiで割ってやると、y/Xi=β+εi/Xi という予測式ができ、εi/Xi≈N(0,σ^2) という等分散の誤差になります。
テキストは両辺を分散で割っていますから、単回帰なら誤差はN(0,1) に従いますね。
また、上述の例では、単なる比例式ですが、テキストは誤差に影響するXiが指数関数だったと想定して指数関数で割っています。
なお蛇足ですが、最近はいちいちそんな変数変換(逆数を掛ける)をしません。上述の例であれば、一般化線形モデル(glm)で変動係数一定モデル(family=”Gamma”)を使えば同じ解が出ます。
最近は、glmでやる人が多いです。
丁寧なご説明いただきありがとうございます.
重ねて2点質問申し訳ありません.
まず①のケースは、同テキストに記載のある最良線形不偏推定量(BLUE)を満たす仮定の一つ(母数の線形性)の為に行う自然対数変換と同義という認識でよろしいでしょうか.(テキストでは変換後偏残差プロットで線形性の確認を行っていました.)
2点目は、変動係数一定モデルが使えず、質問の例のような人口規模による不均一分散(平均所得、平均世帯人員etc)のような説明変数の誤差を、逆数をかける手法で解消しようとする場合、誤差項の分散の関数の形がわからなければ使用できない、となっているのですがそれを確認する方法はありますでしょうか.(テキストではその場合実行可能一般化最小二乗法が推奨されておりました.)
以上、重ねての質問誠に恐れ入りますが、テキストごとに記載が異なり判断ができず、ご教示いただけませんでしょうか.
No.8
- 回答日時:
No.6の回答を訂正させて下さい。
誤)線形性とは足し算で表されるということで、線が曲がっていることとは違います。
正)線形性とは足し算で表されるということで、線が真っ直ぐだということとは違います。
返信が遅くなり申し訳ありません。
調べている間にアンサー期限が過ぎておりました。
大変詳しい説明いただきありがとうございました。
自身の勉強不足を痛感すると共に、勉強すべき方向性が質問する前よりわかったように思います。
またこちらで質問させていただくこともあるかと思いますので、機会ありましたらよろしくお願いいたします。
No.7
- 回答日時:
ところで、偏回帰プロットとか、偏残差とか、98ページの記述で理解できましたか?
注目しているxi を、それ以外の説明変数で回帰した残差
目的変数y を、注目しているxi 以外の説明変数で回帰した残差
これらの残差を偏残差と言い、これら残差どうしを単回帰したものを偏残差回帰と言います。
この単回帰係数は偏回帰係数に一致します。
偏残差は、他の説明変数で説明した残り=他の説明変数の影響を取り除いた「その変数そのものの変化傾向」を見ていることになります。
だから、注目している説明変数の関数形を類推するのには都合が良いのです。
どうでも良いことかもしれませんが、コメントに書かれた文章を読んでいると、このあたりのご理解が出来ていないのかと思いましたので、つい。
No.6
- 回答日時:
97ページで関数形のことを線形性と記述している点は、違和感を覚えました。
線形性とは足し算で表されるということで、線が曲がっていることとは違います。前後をよく読んでいないので、私の勘違いかもしれませんが・・・。
No.5
- 回答日時:
残差全体でなく、なぜ偏残差で確認しているか、ということに疑問が残ると書きましたが、
97ページ以降の記述を読んでみたところ、
・残差が広がっているとか収束していくとか、残差の分布形そのものを吟味しているのではなく、
・モデル(指数関数とか)を仮定して、そのプロットが残差を含めてモデルにフィットするかを観察し、説明変数の関数形を類推する
という使い方なので、問題ないと思いました。
残差の吟味(純粋な偶然誤差だけが残っているか否かを吟味する)ではないんですね。私はこっちだと思っていました。
ブロイシュ・ペーガンテストの話も出ていたし・・・。
それと、GLSというかFGLSで分散不均一性を回避できるという話は、すごく最近の書籍を引用していますね。新しい使い方です。これは知りませんでした。
私の勉強不足です。
Wooldridge(2020)は経済系の書籍ですね。
私は工学系なので守備範囲外でした。
定期的な学会の勉強会にも参加しているのですが、話題にも上がりませんでした。情報、ありがとうございました。
あと、「相乗的効果」を対数の足し算に直して回帰する件は、96ページやその前にも書いてありますね。
やたら自然対数にこだわっていますが、工学系では常用対数も普通に使われます。
No.4
- 回答日時:
簡単に回答できるものから、回答していきます。
確率紙プロットは残差プロットとは違います。
縦軸を任意の分布関数の累積確率にして、直線になれば、その分布に従うとみなされます。
添付図は正規確率紙です。正規分布の場合はQQプロットと、縦軸横軸が入れ替わったグラフになります。
確率紙は縦軸が不等間隔になっていることに着目して下さい。

No.3
- 回答日時:
コメント、ありがとうございました。
ご謙遜されてましたが、かなり知識がある方とお見受けしました。
1) ①の方法の目的
「母数の線形性確保(多項式で表現可能)」の認識で良いと思いますが、テキストの記載を確認してみます。残差全体でなく偏残差で確認していることに疑問が残ります。
「最良線形不偏推定量(BLUE)を満たす仮定の一つ(母数の線形性)の為に行う自然対数変換」はその本の何ページに記載されていますか?(すみません、持ってはいるんですが、読んでないので)
2) ②で残差のモデルが不明のとき
誤差項の分布の形ですが、プロット数が50くらいあれば、残差を「確率紙」に乗せることで、分布形が確認できます。
プロット数が少ない時(数点~十数点)は、何をやっても無理です。さらに、ブロイシュ・ペーガンテストも、サンプル数が少ない時は棄却されません。だから能天気に普通の線形回帰をやっている例が殆どです。
なお、回避策として「実行可能一般化最小二乗法GLS」を使え、というのは、奇異に感じました。その用途が他のテキストや私の認識と異なるからです。下記質問に対する回答のNo1をご覧下さい。
https://oshiete.goo.ne.jp/qa/12829693.html
GLSではなく、実際に内生性バイアス(x→εのパスがある)を回避する方法としては、下記のいくつかの方法があります。こちらは多くのテキストに出てきます。
ebar の最小化に基づかないフィッティング:分位点回帰
e の分布形を考慮したフィッティング:一般化線形モデル(GLM)
e の偏りを補正したフィッティング:操作変数法
このうち、因果分析の分野で多用されるのは「操作変数法」です。
返信いただきありがとうございます。大変恐縮です。自身が記載を曲解している可能性もあります。
1)「最良線形不偏推定量(BLUE)を満たす仮定の一つ(母数の線形性)の為に行う自然対数変換」
テキストP97、「7.2.6多変量における診断方法」以下に成分プラス残差プロット(偏残差プロット)と自然対数変換の判断について記載があり、ここから判断しております。
2)実行可能一般化最小二乗法について
ありがとうございます。簡易な書籍によく記載のある「残差プロット」というものでしょうか。プロット数(標本サイズ)は50以上ありますので使用できそうです。
ブロイシュ・ペーガンテストも実施しようとしていたのですが、サンプル数について意識しておりませんでした。ありがとうございます。
実行可能一般化については、テキストP117下段に
1.誤差項の分散を不均一にしている変数
2.およびその関数の形がわかる
ことを加重最小二乗法は前提とする
それらが不明な場合は〜
という部分を拝見していたのですが、いかがでしょうか。
No.2
- 回答日時:
#1です。
①は、説明変数だけ(イコールの片側だけ)の変換ですが、
②は、両辺を同じもので割っています。
この点からも、意図が異なることが、お分かりいただけると思います。
①は、式の意味を変えたい。
②は、イコールの関係は守りたい。誤差は等分散にしたい。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
このQ&Aを見た人はこんなQ&Aも見ています
-
プロが教える店舗&オフィスのセキュリティ対策術
中・小規模の店舗やオフィスのセキュリティセキュリティ対策について、プロにどう対策すべきか 何を注意すべきかを教えていただきました!
-
大卒なのに統計や、ソースを提示しないで持論を展開する人って。
統計学
-
固有ベクトルを求める問題です。 至急教えてください。よろしくお願いします。
統計学
-
統計学、仮設検定に関して質問です
統計学
-
4
統計の課題なのですが、エクセルで1990年から2022年の8月の平均気温を分析したいのですがどんな表
統計学
-
5
正規分布を使うと思ったのですが問題文には書いてないのでどうとくか分かりません ある企業に働く人のグリ
統計学
-
6
以下の推測はどこが誤っているのでしょうか? http://oshiete.goo.ne.jp/qa/
統計学
-
7
この問題が分かりません。ポアソン分布を使うと思ったのですが0.5分というところに引っかかってしまい求
統計学
-
8
統計学についての質問です
統計学
-
9
至急!次の問題を教えてください。 ある市では、消防車の出動要請が平均して1時間当たり1回ある。 多く
数学
-
10
Xが[0,1]を台に持つ連続一様分布に従う確率変数とするとき、Y=X^2/3が従う確率分布の確率密度
統計学
-
11
【高校数学】確率の問題
統計学
-
12
以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ
数学
-
13
確率の問題です。お詳しい方よろしくお願いします。
統計学
-
14
数学の問題です。 問1: ある(人数の非常に多い)集団から無作為に6名を選んで身長を測ったところ、そ
数学
-
15
有意差ありの「95%以上信頼できる」という文言を、もう少しわかりやすい言葉に置き換えるとどうなります
統計学
-
16
Rでnnetを用いて回帰分析を実装しました。この実装結果の利用方法がわからない。
統計学
-
17
統計検定の勉強をしていて理解できない箇所が一つあります。 フィッシャーネイマンの因子分解定理です。
統計学
-
18
統計検定2級を取ろうと勉強中なのですが分からないことがあったので質問させていただきます。 スタージェ
統計学
-
19
対数平均二乗誤差(RMSLE)について
統計学
-
20
t統計量とF統計量について
統計学
このQ&Aを見た人がよく見るQ&A
人気Q&Aランキング
-
4
計算値と理論値の誤差について
-
5
単回帰分析の仮定について。
-
6
許容誤差とは
-
7
加重最小二乗法=①「変数を自然...
-
8
計量法の秤の公差と器差について
-
9
需要予測の誤差及び精度の計算...
-
10
符号化について
-
11
テイラー展開の打切り誤差
-
12
3重解?
-
13
精度・変動係数について質問です
-
14
入試の化学で有効数字2桁で答え...
-
15
水理学のせき(堰)について教え...
-
16
振り子の相対誤差が生じる原因...
-
17
ドリフト係数(ブラウン運動・ブ...
-
18
回帰直線の変数xとyを入替えた...
-
19
誤差を含む数値同士を掛け算し...
-
20
質量パーセント濃度5.0%のグル...
おすすめ情報
公式facebook
公式twitter