プロが教える店舗&オフィスのセキュリティ対策術

 最近 統計予測の勉強を始めました。元データに極端な異端値を含む場合

一般的に平均値よりもメジアンを用いるほうが予測の精度があがると

いうのはその通りだと思いますが、最近おもしろいことに気がつきました。

元データの約3%分 異端値を除いて平均値を用いるとメジアンを用いる

場合よりも有効なんです。これにはもしかしてかっこたる理論があるのでしょうか?

それと面白くなってきたので本気で統計予測の勉強をしたいのですが

この程度のレベルの私にふさわしいお勧めの書物とかあればご推薦ください。

よろしくお願いします。

A 回答 (1件)

> 異端値を除いて平均値



トリム平均(trimmed mean)ですね。
中央値は真ん中の値が変わらなければ、他の値がどんな値であろうとも、中央値は同じままです。
一方、平均値は1個でも値が変われば、異なる平均値になってしまいます。
しかし、これは言い換えれば、中央値は値の変化に鈍感で平均値は鋭敏であるともいえます。
トリム平均は、よく言えば両者の良いところをとった、悪く言えば折衷案みたいなものです。


> これにはもしかしてかっこたる理論があるのでしょうか?

異常値があったとしても影響を受けにくいことを頑健である(robust)というのですが、この頑健性の指標の一つとして破局点(breakdown point)というものが有ります。
破局点が高いほど頑健な統計量となり、平均は1/データ数、中央値は50%、トリム平均は両側1.5%ずつを除いた場合は1.5%の破局点を持ちます。


参考
http://ibisforest.org/index.php?%E7%A0%B4%E5%B1% …
http://en.wikipedia.org/wiki/Robust_statistics
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!