電子書籍の厳選無料作品が豊富!

収集したデータをある関数でフィッティングする際、収集したデータと関数の差を二乗した合計が最小になるよう、関数を求める方法がありますが、なぜ二乗なのでしょうか。
統計的な根拠があるという話を聞いたのですが、WEBで検索しても手法の説明や実際の計算の仕方ばかり検索され、根拠がなかなかみつかりません。
なぜ、絶対値の合計や3乗、4乗、平方根ではなく、二乗の和を使用するのでしょうか。

A 回答 (3件)

[1] 厳密な話ならばANo.1の通りです。



 最小二乗法が厳密な意味でモデルのパラメータの最尤推定法になるためには、以下の前提が必要です。
(1) 誤差、すなわち測定値y[i]と真値y0[i]の差
  ε[i] = (y[i]-y0[i])
は平均0、分散(σ[i])^2の正規分布 N(0, (σ[i])^2)に従う。ただし、
  σ[i] = s[i] σ0
で、σ0は未知でも良いが、s[i]は既知である。
(2) 各測定は互いに独立で、それぞれの誤差の共分散は0である。
(3) パラメータのベクトルxを含む既知のモデルM(x,i)があって、真値y0[i]について、あるパラメータx0が存在して、
  M(x0,i)=y0[i]
である。

 つまり、正解のx0を使って計算した残差y[i]-M(x0,i)は、正規分布 N(0, (σ[i])^2)に従う独立なランダム変数n個それぞれから取ったサンプルになっている、ということです。

 さて、真値の推定値としてモデルが与える値 M(x,i) を使ったとき、その尤度(すなわち、測定値がy[i]であるときに真値がM(x,i)である確率)は、上記(1)(2)の仮定から、
  L(M(x,i) | y[i]) = {1/(σ[i]√(2π))} exp( -((y[i]-M(x,i))^2) / (2(σ[i])^2) )
である。xの尤度L(x | y[i](i=1,...,n))(すなわち、測定値がy[i](i=1,...,n)であるときにパラメータの正解がxである確率)は、i=1...nについてのL(M(x,i) | y[i]) の積
  L(x | y[i](i=1,...,n)) = Π L(M(x,i) | y[i])
   = [1/{((2π)^(n/2))Πσ[i]} ] exp[-E(x)/(2(σ0^2))]
である。ただし
E(x) = Σ{((y[i]-M(x,i))/s[i])^2}
としました。
 確率の意味で最も尤もらしいx0の推定値は、尤度L(x | y[i](i=1,...,n)) を最大にするようなxである(最尤推定)。そして、L(x | y[i](i=1,...,n)) の式から明らかなように
  L(x | y[i](i=1,...,n))を最大にするようなx ⇔ E(x)を最小にするx
です。

[2] しかしながら、実務においては「必ずしも最尤推定だと保証できなくてもいい」という場合が多々ある。また、「データy[i]が含む測定誤差が正規分布に従い、その分散の相対値s[i]が分かっている」という条件や「真値は(パラメータさえ正しければ)モデルで誤差なしに説明できる」という条件を満たせない場合も多い。なので、実務のセンスで言いますと、ANo.2の説明もまた適切であろうと思います。

この回答への補足

これらの情報をもとに少し考えて見ます。返事はお待ちください

補足日時:2011/12/16 20:13
    • good
    • 0
この回答へのお礼

理解できました。
ありがとうございます。

お礼日時:2012/03/17 20:45

物凄く簡単に言えば



何かの関数でフィッティングしたい
→誤差を小さくするようにしたい

という場合に、最も簡単に思いつくのは「誤差の絶対値を足してゼロ」というものです。
しかし、これでは絶対値の取扱いなど、計算が非常に難しい。

したがって、二乗を使う訳です。


平方根では、(予測値-実測値)がマイナスになったときに困ります。
三乗だと、(予測値-実測値)の符号が残ってしまうため問題があります。

4乗では、最適化の時に面倒があります。
二次関数を考えてもらえば分かりますが、二次関数は山や谷が一つだけです(単峰性と言います)。したがって一回微分だけを考えれば最小値が特定できます。
一方の4次関数では山や谷が複数(一般に三つ)あります。したがって、最小値を特定することが非常に難しくなります。


勿論、最小二乗推定量は特定の条件下において最良のもの(最良不偏線形推定量)であることは間違いないのですが、上記のような理由があります。
    • good
    • 2
この回答へのお礼

解決しました。

お礼日時:2012/03/17 20:45

誤差をガウス分布に従うものとして扱っているからです。



ガウス分布に従うとすると、平均がmi、標準偏差σiである測定値を測定してyiというデータを得る確率は

Pi(yi) ~ exp[ -(yi-mi)^2/2σi^2 ]

となります。したがって、独立な測定をしてy1, y2, y3,・・・・という測定値が得られる確率はそれぞれの確率の積で

Pall(y1, y2, y3, ・・・・) =P1(y1) P2(y2) P3(y3) ・・・
~exp[ -(y1-m1)^2/2σ1^2 ]exp[ -(y2-m2)^2/2σ2^2 ]exp[ -(y3-m3)^2/2σ3^2 ] ・・・・
=exp[ -{(y1-m1)^2/2σ1^2 + (y2-m2)^2/2σ2^2 + (y3-m3)^2/2σ3^2 + ・・・} ]
=exp[ -(1/2)Σi { (yi-mi)/σi }^2 ] = exp(-χ^2/2)

ここで、

χ^2 = Σi { (yi-mi)/σi }^2

と定義する。

したがって、測定値の組{y1, y2, y3, ・・・} に対してPall(y1, y2, y3, ・・・・)を最大にしようとすればχ^2を最小にすればいいことがわかります。

y1, y2・・・のそれぞれについて標準偏差が全て同じσである場合には

χ^2 = Σi { (yi-mi)/σi }^2 = (1/σ^2)Σi (yi-mi)^2

となるので、χ^2を最小にすることは残差二乗和Σi (yi-mi)^2 を最小にすることに等しくなります。

これが最小二乗法の理屈です。

関数が一次式で与えられる場合には

mi = a xi + b

としてa, bの最確値を求めることになります。
    • good
    • 1
この回答へのお礼

解決しました。

お礼日時:2012/03/17 20:46

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!