統計学　分散について

締切済

質問者：guns_and_roses
質問日時：2009/10/15 02:42
回答数：4件

今ネットのHPでハンバーガー統計学とういところで統計学を覚えようとしています。

このHPで、
データのばらつきを数値で表す
という、項目があります。

　ここでは、分散の式を分かりやすく説明しているのですが、
HPの説明では・・・

平均値からのずれ（つまり個々のデータと平均値との差）を足せば、ばらつきの数値になるのではないかと考えます。つまり、

ばらつき案1＝（データ－平均値）の総和

ということです。しかし、これですと、データが小さいときに（データ－平均値）はマイナスになるので、総和を求めてもゼロになってしまいます。そこで、２乗することでマイナスをプラスにします。次の案はこうなります。

ばらつき案2＝（（データ－平均値）の２乗）の総和

しかし、まだ問題があります。この式ですと、データの個数が大きくなるにつれてばらつきが大きくなってしまいます。個数の大小にかかわらず、ばらつきを求めたいのです。そこで、総和をデータの個数で割ることにします。式は、

ばらつき案3＝（（データ－平均値）の２乗）の総和÷個数

これで良さそうです。この「ばらつき3」のことを「分散」と呼びます。もう一度式を書いておきましょう。

分散＝（（データ－平均値）の２乗）の総和÷個数

分散は、データが平均値を中心にして、どのくらいばらついているのかを示した数値です。

と、あります。

　分散は平均からのずれを出すのであれば、

分散＝（（データ－平均値）の２乗）の平方根の総和÷個数

が正しいような気がします。

例えば平均から+5ｃｍの２乗は25なのに、
+0.3ｃｍの場合２乗は0.09になってしまい、
大きくぶれたものはより大きく、
小さくぶれたものはより小さくなってしまいます。

ばらつき案1で
データから平均値を引いた答えに+と-があり、
総和を求めると、この+と-のブレがお互いに干渉しあって
数値を0に近くする為、
一度２乗して+と-を無くしたのに、
何故その後、そのままなのかよく分かりません。

　２乗して+と-を外したなら、次に平方根を出し数値を実態に近い値にすればいいのにと思ってしまいます。

　言ってる事がいまいち伝わらないかと思いますが・・・

　どなたか解説お願いします。

　分散とはそういう計算式なんだ！と、
言ってしまえばそれまでですが、
どうしても納得がいきません・・・

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者： ur2c
回答日時：2009/10/15 16:04

私も学生時代、同じ疑問を持った一人です。

データのまんなかを表す指標も、算術平均だけがまんなかの指標ではありません。中央値
http://ja.wikipedia.org/wiki/%E4%B8%AD%E5%A4%AE% …
とか幾何平均
http://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87
とか、最小最大を除いた平均とかが使われることがあります。

同様にばらつきの指標も分散 V あるいは標準偏差 SD = V^(1/2) (standard deviation) だけがばらつきの指標ではありません。たとえば MAD (median absolute deviation)
http://en.wikipedia.org/wiki/Median_absolute_dev …
とか IQR (interquartile range)
http://en.wikipedia.org/wiki/Robust_measures_of_ …
とか。

ご提案の平均絶対偏差も average absolute deviation とか MD (mean absolute deviation) とか呼ばれて、実際に使われています。
http://en.wikipedia.org/wiki/Absolute_deviation

標準偏差 SD と平均絶対偏差 MD の優劣比較は 1914 年頃から 1920 年頃に行われたそうです。その時代には Fisher が論争に勝って V と SD が使われるようになりました。しかし現代的な視点からは、そのときの論拠は説得的でない、という意見もあります。詳しくは
http://www.leeds.ac.uk/educol/documents/00003759 …
をご覧ください。

結局 MD でなく SD が使われるようになったのは、一言で済ませるなら歴史的な事情だと思います。その事情は数式の扱いやすさを含み、特に正規分布が数理統計学の中心的な地位を占めた事に関係します。

ところが測定値が完全な正規分布からのランダムサンプルではなく、たとえば転記ミスや伝送エラーのような異常値を僅かながら含むという現実的な仮定を置くと、SD の MD に対する統計理論上の優位は崩れます。そしてコンピュータが駆使できるという状況のもとでは数式の扱いやすさも絶対的な優位をもたらさず、「MD のほうが SD より良いかもしれない」という意見につながっていると思います。あと 100 年たったら、どうなっているでしょうね？

- 0
- 件

通報する

No.3

回答者： Ishiwara
回答日時：2009/10/15 13:51

「矛盾が出ない」だけでよければ、バラツキの定義方法はいくらでもあります。

例えば、次のようなものもアリです。

ばらつき案4＝（（データ－平均値）の絶対値）の総和÷データ数

ですから、定義の段階でいくら頭をひねっていても、定義の良さの比較はできません。問題は、定義の後に出てくるいろいろな理論が、どれだけスッキリして数学的に美しいものなるか、です。

もっと先へ進んでから、またこの問題を考えてみるといいでしょう。

- 0
- 件

通報する

No.2

回答者： hitokotonusi
回答日時：2009/10/15 10:24

>分散＝（（データ－平均値）の２乗）の平方根の総和÷個数

>が正しいような気がします。

どうして今のような分散の定義が定着したのかという正確な歴史的な経緯は知りませんが、一つには独立な場合には加算が成り立つという扱いやすさがあると思います。

二つの確率変数x1, x2があり、それぞれn個の平均と分散をμ1，V1, μ2、V2賭します。

V1 = Σ(x1-μ1)^2/n, V2 = Σ(x2-μ2)^2/n

この二つの変数の和x1+x2の分散を考えます。サイコロを二つ投げたときの目の合計のようなものを思い浮かべてください。この分散V(1+2)を計算します。平均はμ1＋μ2なので定義にしたがって

V(1+2)=Σ[(x1+x2)-(μ1＋μ2)]^2/n =Σ[(x1-μ1)+(x2-μ2))]^2/n
=Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n +2Σ[(x1-μ1)(x2-μ2)]/n

となりますが、x1,x2が独立の場合は第3項が0になるので

V(1+2)=Σ[(x1-μ1)]^2/n + Σ[(x2-μ2)]^2/n = V1+V2

となり、x1+x2の分散をx1とx2の分散の加算で求めることができます。

サイコロのようにx1とx2が同じものであれば分散が等しいのでV1=V2=Vと置けば

V(1+2)=2V

のように求めることができます。

分散の定義を

V = Σ√[(x1-μ1)^2]/n = Σ|x1-μ1|/n

としてしまうと、こうは行きません。

- 0
- 件

通報する

No.1

回答者： quaestio
回答日時：2009/10/15 06:49

> 分散は平均からのずれを出すのであれば、

> 分散＝（（データ－平均値）の２乗）の平方根の総和÷個数
> が正しいような気がします。

その定義は、平均値からの差の絶対値の平均と同じですよね。
私もそう思ったことがありますので、お気持ちが良くわかります。

しかし、絶対値記号の出てくると場合わけで苦労したことがないでしょうか？
絶対値記号が出てくると取り扱いが少し面倒なので、2乗のままの方がいいのです。

また、分散の加法性というよい性質があることも2乗の方が使われる理由でしょう。