回帰分析におけるデータの正規化の意味

Question

重回帰分析をプログラム作成することを考えています。
しかし、データの正規化について疑問が２つあります。

まず一つは、例えば、画像の解析をする場合にデータの正規化をすることは、
ノイズを除去したり、画像の向きを正しくすることを意味しますよね。
しかし、回帰分析においてデータの正規化をすることは何を意味しているのでしょうか？
画像のように見てイメージがわけばよいのですが、数値データなのでどういう意図があるのかよく分かりません。


２つ目の疑問です。
また、データを正規化して重回帰分析をしたとします。
↓の重回帰分析を例に挙げます。
http://homepage2.nifty.com/crop_shimane-u/multipleregression_excel.htm
この例では、入力として年平均気温、降水量、日照時間とし、出力を単収としています。
このときデータを正規化せずに解析し、次のような予測式を推定しています。
　水稲単収＝713.932-17.336×年平均気温+0.010666×降水量+0.017851×日照時間　・・・　＠
この場合に、正規化していないので新しいデータとして、例えば、
　年平均気温＝14.8、降水量＝2431、日照時間＝1721　・・・　（＊）
から単収を推定したいとき、上記＠の回帰式に代入することで単収を計算して推定できます。（１）

しかし、データを正規化（平均が0、分散が1になるように）した場合、入力と出力のデータが0以上1以下の値しかとらなくなるので、
重回帰によって上記＠のように予測式が得られてもその予測式の出力は0以上1以下の値しかとらないことになり、
新しいデータ（＊）をそのまま予測式に代入しても正しい単収を推定できないのではないかと考えています。
この場合のように、データを正規化して得られた予測式で（１）のように正しく単収を推定するにはどうしたらよいのでしょうか？

長くなりましたが、回答よろしくお願いします。

kamiyasiro · Accepted Answer

問１
正規化をすると、単位に引きずられず偏回帰係数によってその因子の影響を比較評価できるようになります。
たとえば、mmとcmと単位を変えたとき、mmで式を作ると「降水量」が大きな偏回帰係数を持ち、「降水量」の影響が大きく見えます。正規化してみれば、各因子の係数が、「寄与率」のように比較できます。
正規化して重回帰分析を行ったときの係数を「標準偏回帰係数」といいます。多くの解析ソフトは、両方を表示します。

問２
ご質問者の誤解です。
平均を0、分散を１までは正しいです。
データはおおよそー３から３くらい（ー３σから＋３σ）になっているはずです。なぜ、正値しか考えないのですか? 負値もとります。
正規化（基準化，標準化ともいいます）した場合の予測値は、しない場合と同じ値を与えないと間違いです。

問３
もし、手持ちのルーチンが正値しか扱えないのなら、学力試験の偏差値のように（50，10）（偏差値といいます）にしても良いかもしれません。

kamiyasiro · Answer

＞ データはおおよそー３から３くらい（ー３σから＋３σ）になっているはずです。と回答に書かれているのですが、－３から３という範囲はどのようにして求めているのですか？

正規分布の場合は、±３σの範囲内の分布密度は全体の99.7％で、ほぼ全データが入ります。ですからよくグラフを書くときに±3σの線を入れたりします。工程能力も±3σが安定の目安になっています。
すなわち、今、分布がN(0,1)ですから、±3の範囲に殆ど全てのデータが入ってくるだろうと考えて書きました。それを越えるものは異常値の疑いがあるわけです。

＞ 正規化なしの場合の回帰式の係数と、正規化ありの場合の回帰式の係数は異なっているわけですが、この係数を一致させることは可能なのでしょうか？

偏回帰係数と標準偏回帰係数は通常は一致しません。偏回帰係数と標準偏回帰係数が一致するのは、説明変数の分散と目的変数の分散が一致しているときだけです。
ただし、互いに変換は可能です。リンク先の式（2-6）をご覧下さい。

＞ そうできれば、テストデータを正規化する必要もなくなるので・・・。

リンク先にも書いてありますように、一般の統計ソフトではまず先に、桁落ち桁あふれの心配のない標準偏回帰係数を求めておき、それから偏回帰係数に変換するのが誤差の少ないやり方です。
まずは、正規化をやられてはいかがでしょうか。

参考URL：http://staff.aist.go.jp/kudoh.yuki/ja/research/files/regression.pdf

kamiyasiro · Answer

#1です。
回答が遅くなりすみません。

説明変数（x）を正規化したデータで重回帰式を作ったときは、予測用代入値（x'）もxを正規化した変換式で変換されたものでなくてはなりませんね。

それから、私は前の回答で少しはしょって書いてしまいましたが、説明変数（x）を正規化したときは、目的変数（y）も同様に正規化するケースが多く、そのような場合は予測値も正規分布N（0，1）に従います。よって逆変換しないと元の値と一致しません。
しかし、あくまで大小関係はしっかり保存されています。

回帰分析におけるデータの正規化の意味

問１

この回答への補足

＞ データはおおよそー３から３くらい（ー３σから＋３σ）になっているはずです。

#1です。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

＞データはおおよそー３から３くらい（ー３σから＋３σ）になっているはずです。