誤差の二乗を最小にする理由

Question

収集したデータをある関数でフィッティングする際、収集したデータと関数の差を二乗した合計が最小になるよう、関数を求める方法がありますが、なぜ二乗なのでしょうか。
統計的な根拠があるという話を聞いたのですが、WEBで検索しても手法の説明や実際の計算の仕方ばかり検索され、根拠がなかなかみつかりません。
なぜ、絶対値の合計や３乗、４乗、平方根ではなく、二乗の和を使用するのでしょうか。

stomachman · Accepted Answer

[1] 厳密な話ならばANo.1の通りです。

最小二乗法が厳密な意味でモデルのパラメータの最尤推定法になるためには、以下の前提が必要です。
(1) 誤差、すなわち測定値y[i]と真値y0[i]の差 
　　ε[i] = (y[i]-y0[i])
は平均0、分散(σ[i])^2の正規分布 N(0, (σ[i])^2)に従う。ただし、
　　σ[i] = s[i] σ0
で、σ0は未知でも良いが、s[i]は既知である。
(2) 各測定は互いに独立で、それぞれの誤差の共分散は0である。
(3) パラメータのベクトルxを含む既知のモデルM(x,i)があって、真値y0[i]について、あるパラメータx0が存在して、
　　M(x0,i)=y0[i]
である。

つまり、正解のx0を使って計算した残差y[i]-M(x0,i)は、正規分布 N(0, (σ[i])^2)に従う独立なランダム変数n個それぞれから取ったサンプルになっている、ということです。

さて、真値の推定値としてモデルが与える値 M(x,i) を使ったとき、その尤度（すなわち、測定値がy[i]であるときに真値がM(x,i)である確率）は、上記(1)(2)の仮定から、
　　L(M(x,i) | y[i]) = {1/(σ[i]√(2π))} exp( -((y[i]-M(x,i))^2) / (2(σ[i])^2) )
である。xの尤度L(x | y[i](i=1,...,n))（すなわち、測定値がy[i](i=1,...,n)であるときにパラメータの正解がxである確率）は、i=1...nについてのL(M(x,i) | y[i]) の積
　　L(x | y[i](i=1,...,n))  = Π L(M(x,i) | y[i])
　　 = [1/{((2π)^(n/2))Πσ[i]} ] exp[-E(x)/(2(σ0^2))]
である。ただし
E(x) = Σ{((y[i]-M(x,i))/s[i])^2}
としました。
　確率の意味で最も尤もらしいx0の推定値は、尤度L(x | y[i](i=1,...,n)) を最大にするようなxである（最尤推定）。そして、L(x | y[i](i=1,...,n)) の式から明らかなように
　　L(x | y[i](i=1,...,n))を最大にするようなx ⇔ E(x)を最小にするx 
です。

[2] しかしながら、実務においては「必ずしも最尤推定だと保証できなくてもいい」という場合が多々ある。また、「データy[i]が含む測定誤差が正規分布に従い、その分散の相対値s[i]が分かっている」という条件や「真値は（パラメータさえ正しければ）モデルで誤差なしに説明できる」という条件を満たせない場合も多い。なので、実務のセンスで言いますと、ANo.2の説明もまた適切であろうと思います。

at9_am · Answer

物凄く簡単に言えば

何かの関数でフィッティングしたい
→誤差を小さくするようにしたい

という場合に、最も簡単に思いつくのは「誤差の絶対値を足してゼロ」というものです。
しかし、これでは絶対値の取扱いなど、計算が非常に難しい。

したがって、二乗を使う訳です。

平方根では、(予測値-実測値)がマイナスになったときに困ります。
三乗だと、(予測値-実測値)の符号が残ってしまうため問題があります。

４乗では、最適化の時に面倒があります。
二次関数を考えてもらえば分かりますが、二次関数は山や谷が一つだけです（単峰性と言います）。したがって一回微分だけを考えれば最小値が特定できます。
一方の４次関数では山や谷が複数（一般に三つ）あります。したがって、最小値を特定することが非常に難しくなります。

勿論、最小二乗推定量は特定の条件下において最良のもの（最良不偏線形推定量）であることは間違いないのですが、上記のような理由があります。

hitokotonusi · Answer

誤差をガウス分布に従うものとして扱っているからです。

ガウス分布に従うとすると、平均がmi、標準偏差σiである測定値を測定してyiというデータを得る確率は

Pi(yi) ～ exp[ -(yi-mi)^2/2σi^2 ]

となります。したがって、独立な測定をしてy1, y2, y3,・・・・という測定値が得られる確率はそれぞれの確率の積で

Pall(y1, y2, y3, ・・・・) ＝P1(y1) P2(y2) P3(y3) ・・・ 
～exp[ -(y1-m1)^2/2σ1^2 ]exp[ -(y2-m2)^2/2σ2^2 ]exp[ -(y3-m3)^2/2σ3^2 ] ・・・・
＝exp[ -{(y1-m1)^2/2σ1^2 + (y2-m2)^2/2σ2^2 + (y3-m3)^2/2σ3^2 + ・・・} ]
＝exp[ -(1/2)Σi { (yi-mi)/σi }^2 ] = exp(-χ^2/2)

ここで、

χ^2 ＝ Σi { (yi-mi)/σi }^2

と定義する。

したがって、測定値の組{y1, y2, y3, ・・・} に対してPall(y1, y2, y3, ・・・・)を最大にしようとすればχ^2を最小にすればいいことがわかります。

y1, y2・・・のそれぞれについて標準偏差が全て同じσである場合には

χ^2 ＝ Σi { (yi-mi)/σi }^2 ＝ (1/σ^2)Σi (yi-mi)^2

となるので、χ^2を最小にすることは残差二乗和Σi (yi-mi)^2 を最小にすることに等しくなります。

これが最小二乗法の理屈です。

関数が一次式で与えられる場合には

mi = a xi + b

としてa, bの最確値を求めることになります。

誤差の二乗を最小にする理由

[1] 厳密な話ならばANo.1の通りです。

この回答への補足

物凄く簡単に言えば

誤差をガウス分布に従うものとして扱っているからです。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング