天使と悪魔選手権

http://www.ism.ac.jp/~fujisawa/research/robust.h …

ここのページに、
データが発生している中心部分から大きく外れているようなデータを「外れ値」と言います.外れ値は,もちろんタイプミスに限らず,大きなノイズがある場合や,観測状況に一時的な大きな変化があった場合などにも観測されます.このような外れ値がデータに混じっていたとしても妥当なパラメータ推定を行うことができる推定をロバスト推定と言います.(ロバスト推定には他の意味もありますが,ここではこの意味に絞ります.)
と書かれているのですが、「他の意味」というのは何のことなのでしょうか?

A 回答 (2件)

推定値に関する「統計」です。

あくまで安定で分散の小さな推定値を得る意味です。最小二乗法に限らず、最尤法その他の推定法でも良い推定値を得るために使われる技術です。あるいは特定の問題で特に良い推定を与える方法をロバストであると言ったりもします。
「安定」で「分散が小さい」ということの意味ですが、繰り返された多数の独立な測定の組があるとき、各組から得られた推定値の分布の分散が小さくて真値に近く、真値から大きく外れた裾を引かない、という意味です。

非線型とはあてはめるべき実験式が推定するべきパラメータに関する一次式で表せないものを言います。例えば y = asin(bx) はパラメータ b について非線型です。測定値 y が正規分布をしてもパラメータの推定値は非正規分布になります。また、線型な実験式 y = a+bx であっても測定値 y が長い裾を引いた非正規分布であるような場合(例、コーシー分布 f(y)=(Γ/π)/(Γ^2+(y-y0)^2) など)もあります。いずれも通常の最小二乗法や最尤法で推定すると、推定値の分散が大きくなってしまい、ロバスト推定法が有効です。
一般に非線形な場合は測定値と推定値の両方が正規分布になることはありません。例えば y = ae^(bx) (y>0)は対数をとると log(y) = log(a) + bx となり、パラメータ log(a)と b について線型な式に変換できますが、y が(片側)正規分布に従っても log(y) は非正規分布です。正確には正規分布の確率密度関数をg(y)としたとき、log(y)の確率密度関数 f(log(y))は、 f(z)=g(y)(dy/dz) (z=log(y)) で表されます。
逆に非正規分布の測定値は正規分布に従う確率変数に変換できますが、そのとき実験式はパラメータについて非線形になります。非正規分布であり従って非線型と言う場合はそのような意味です。

非線型な推定法に関しての書籍はたくさんあります。ロバスト推定については詳しくないので一般的な解説書は知りませんし、一般的な理論が発達しているかどうかわかりません。個々の技術については例えば最小二乗法について実用的で詳細な解説書として「最小二乗法による実験データ解析、プログラムSALS」UP応用数学選書、東京大学出版会、の中で具体的なロバスト推定法が記載されています。
    • good
    • 0

外れ値というのは測定値への外乱がある場合ですが、ロバスト推定は確率分布が本質的に非正規分布(従って非線型)の場合にも有効に活用できることがあります。

その意味だと思われます。
    • good
    • 0
この回答へのお礼

ありがとうございます。

よく分からないのですが、つまりロバスト推定とは
・外れ値があった場合にも妥当な統計をとることが出来る
・線形分布をとらなかった場合でも妥当な統計をとることが出来る
ということなのでしょうか?

2つめの部分なのですが、非正規分布(従って非線型)というのは
通常y = a + b*x + ε
εはランダム関数
と書きますが、これが
y = (a + b*x + ε) + (a + b*x + ε)^2+ (a + b*x + ε)^3

のようになるということを指しているのでしょうか?

検索してみるとトランジスタなどの非線形素子の特性は非線形であるため非正規分布となる、と書かれているのですが、そういうものなのでしょうか?
手元にある統計学の本には非線型のことに関して何も言及されていません。
詳しく書かれている書籍などがありましたら教えて下さい。

お礼日時:2009/02/25 11:00

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!