プロが教えるわが家の防犯対策術!

統計学を本当に初めてやり始めました。で、いきなり、二乗平均で分からなくなりました。
二乗平均はいくつかの偏差の大きさの平均を求めるために、偏差を2乗してプラスマイナスが打ち消しあわないようにしたところまでわかりました。しかし例えば、
+1、-4、-2、+3、+2という5つの偏差のばらつきの平均を求めるとき、上のような理屈なら、(
|+1|+|-4|+|-2|+|+3|+|+2|)/5
=2.4と二乗平均は同じと思ったんですが、二乗平均を求めると約2.61になり、値が違いました。なぜでしょうか??二乗平均は、
“いくつかの偏差の大きさの平均を求めるために、偏差を2乗してプラスマイナスが打ち消しあわないようにした”以外になにかしたのでしょうか??教えてください…

A 回答 (4件)

大もとでおかしくなっているのではありませんか。


集団の性質を知りたい、その性質を他の集団と比較したいという場面が統計を考える前提にあります。

ある性質についてある変数を考えた時の度数(出現率)を見ています。
それをグラフに直すと分布関数になります。
得点に対してその得点を取った人の人数を考えれば試験の得点分布です。
分布関数がまず基本になります。比較は分布関数全体でやります。
1組の数学の成績と2組の数学の成績を比べる場合です。

分布の全体で比べるのを省略して、分布関数の持つ特徴のいくつかで比べてみようということも行われています。どういう特徴を使うかはどういう問題意識で統計を使うかによって変わります。
分布関数を f(x) とします。
ピークが1つであればピークの位置でくらべて見るということができます。でもピークが1つであるとは限りません。
平均値で比べるというのも可能です。でも分布が極端に偏っていると集団の性質を表しているとはいえなくなります。中央値で比べるというのも1つの方法です。最高点、最低点の位置と差で比べることもできます。
1つの量で分布関数全体を表すというのは元々無理なのです。
分布の全体が知りたいのであれば分布関数が必要です。
その分布関数をもとしたモーメントのすべてが分かっていると分布関数が分かっているのと同じになります。
n次のモーメントは∫x^nf(x)dx/∫f(x)dxで表されます。
1次のモーメントは平均と呼ばれているものと同じです。得点の場合でしたら平均点ですが質量分布の場合でしたら重心を表します。(重心を求める時に「力のモーメント」を使います。その時の「モーメント」という言葉の意味は1次のモーメントの意味です。)
<x>=∫xf(x)dx/∫f(x)dx
2次のモーメントでしたら分布の幅の第一近似です。
<x^2>=∫x^2f(x)/∫f(x)dx
2つの式を組み合わせると
<(x-<x>)^2>=<x^2>-<x>^2
になります。これが平均値のまわりのずれの平均を与えます。(質量分布の場合でしたらこの量は「慣性モーメント」という量になります。回転軸の周りの2次のモーメントです。)
これだけで分布関数を表すことができるというわけではありません。
3次のモーメント、4次のモーメント、・・・と取って行く必要があります。
分布関数の形が素直であれば高次のモーメントを計算しなくても概略が分かることになります。
ある次数までのモーメントの値を求めるだけで分布関数全体を表してしまっているとみなすことができるようになります。
※よく出てくるガウス型の分布関数などでしたら記述する変数が少ないので1次、2次のモーメントが分かれば関数形が決まってしまいます。(一般の測定によって得られる分布関数については当てはまりません。)

標準偏差を求めるというのはこういうモーメントを求めることで分布関数を表そうという手順の一環として出てきているものです。
単に「プラスマイナスが打ち消し合わないような数学的な表現は?」というところから発想しているのではありません。必要であればいつでも高次のモーメントの計算に移ることができるという前提でのものです。

ガウス型の分布関数はガウスが誤差論で使いだしたものでしょう。確率過程が前提にあります。
現在は統計力学で頻繁にでてくるものです。しかし確率過程でないものについては当てはまりません。
それを「大数の法則」に頼って「標本数が多ければガウス分布に近づく」というのが成り立つとしているのです。
しかし、人口統計にしてもセンター入試の得点分布にしても明らかにガウス型ではありません。現実に「大数の法則」は成り立っていないにもかかわらず成り立っているとしている例が多いのです。
だから1次のモーメントと2次モーメントだけですんでしまうのが一般的だと思ってしまうのです。あなたのような質問が出てくることになります。

ただ「ずれの評価に使うとしたらどちらの表現の方がいいか」というのとは別の問題です。
場面によるでしょう。
ゲームプログラムなどで離散的に位置が与えられていて、ずれ評価を簡単にやりたいというようなときなどでしたら<差>でやる場合もあるかもしれません。それは「統計」という場面とは少し異なるように思います。 
    • good
    • 3

( |a| + |b| ) /2 と ( a^2+b^2 ) / 2 は明らかに違うものですよね?



統計では、2乗平均を分散といいます(厳密には少しことなるかも)
Aという分布と、Bという分布を足し合わせた分布A+Bの分散は、
Aの分散とBの分散を足したものとなります。
このように、2乗平均は、分布のばらつきをあらわす本質的な量だからです。
    • good
    • 4

偏差あるいは乖離の絶対値の平均という面白いことに気づきましたね.


でも,いまの計算だと,0からの乖離ですよね.
本来は,ばらつきというのは,平均のまわりにある乖離です.
では,平均を基準に偏差の絶対値をとるとどうなるでしょうか.
計算するまでもなく,常に0になります.
これでは,乖離の大きさの指標にはなりません.

では,乖離の2乗というのは何なのかということになりますが,
これは,単に符号を消す,という意味だけではありません.
平均から離れているものには,重いペナルティを掛けるという意味があります.
別に1.5乗のペナルティでもよさそうですが,
テーラー展開とか,色々な数学的処理上,2乗が都合がいいのです.

平均からの偏差の大きさを測るために,
偏差の2乗和の平均を取って分散とする.
測っているものが,標本であれば,nで割らずに(n-1)で割る.

これが分散の求め方です.
    • good
    • 7

わざわざ違う計算をしているにもかかわらず「なぜ」と聞く理由がさっぱりわからん.

    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!