統計学の二乗平均がわからない

締切済

質問者：noname#131753
質問日時：2011/04/07 23:38
回答数：4件

統計学を本当に初めてやり始めました。で、いきなり、二乗平均で分からなくなりました。
二乗平均はいくつかの偏差の大きさの平均を求めるために、偏差を２乗してプラスマイナスが打ち消しあわないようにしたところまでわかりました。しかし例えば、
＋１、－４、－２、＋３、＋２という５つの偏差のばらつきの平均を求めるとき、上のような理屈なら、（
|＋１|＋|－４|＋|－２|＋|＋３|＋|＋２|）/5
＝2.4と二乗平均は同じと思ったんですが、二乗平均を求めると約2.61になり、値が違いました。なぜでしょうか？？二乗平均は、
“いくつかの偏差の大きさの平均を求めるために、偏差を２乗してプラスマイナスが打ち消しあわないようにした”以外になにかしたのでしょうか？？教えてください…

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者： htms42
回答日時：2011/04/09 11:17

大もとでおかしくなっているのではありませんか。

集団の性質を知りたい、その性質を他の集団と比較したいという場面が統計を考える前提にあります。

ある性質についてある変数を考えた時の度数（出現率）を見ています。
それをグラフに直すと分布関数になります。
得点に対してその得点を取った人の人数を考えれば試験の得点分布です。
分布関数がまず基本になります。比較は分布関数全体でやります。
１組の数学の成績と２組の数学の成績を比べる場合です。

分布の全体で比べるのを省略して、分布関数の持つ特徴のいくつかで比べてみようということも行われています。どういう特徴を使うかはどういう問題意識で統計を使うかによって変わります。
分布関数を　ｆ(ｘ)　とします。
ピークが１つであればピークの位置でくらべて見るということができます。でもピークが１つであるとは限りません。
平均値で比べるというのも可能です。でも分布が極端に偏っていると集団の性質を表しているとはいえなくなります。中央値で比べるというのも１つの方法です。最高点、最低点の位置と差で比べることもできます。
１つの量で分布関数全体を表すというのは元々無理なのです。
分布の全体が知りたいのであれば分布関数が必要です。
その分布関数をもとしたモーメントのすべてが分かっていると分布関数が分かっているのと同じになります。
ｎ次のモーメントは∫ｘ^nｆ(ｘ)ｄｘ／∫ｆ(ｘ)ｄｘで表されます。
１次のモーメントは平均と呼ばれているものと同じです。得点の場合でしたら平均点ですが質量分布の場合でしたら重心を表します。（重心を求める時に「力のモーメント」を使います。その時の「モーメント」という言葉の意味は１次のモーメントの意味です。）
＜ｘ＞＝∫ｘｆ(ｘ)ｄｘ／∫ｆ(ｘ)ｄｘ
２次のモーメントでしたら分布の幅の第一近似です。
＜ｘ^2＞＝∫ｘ^2ｆ(ｘ)／∫ｆ(ｘ)ｄｘ
２つの式を組み合わせると
＜(ｘ－＜ｘ＞)^2＞＝＜ｘ^2＞－＜ｘ＞^2
になります。これが平均値のまわりのずれの平均を与えます。（質量分布の場合でしたらこの量は「慣性モーメント」という量になります。回転軸の周りの２次のモーメントです。）
これだけで分布関数を表すことができるというわけではありません。
３次のモーメント、４次のモーメント、・・・と取って行く必要があります。
分布関数の形が素直であれば高次のモーメントを計算しなくても概略が分かることになります。
ある次数までのモーメントの値を求めるだけで分布関数全体を表してしまっているとみなすことができるようになります。
※よく出てくるガウス型の分布関数などでしたら記述する変数が少ないので１次、２次のモーメントが分かれば関数形が決まってしまいます。（一般の測定によって得られる分布関数については当てはまりません。）

標準偏差を求めるというのはこういうモーメントを求めることで分布関数を表そうという手順の一環として出てきているものです。
単に「プラスマイナスが打ち消し合わないような数学的な表現は？」というところから発想しているのではありません。必要であればいつでも高次のモーメントの計算に移ることができるという前提でのものです。

ガウス型の分布関数はガウスが誤差論で使いだしたものでしょう。確率過程が前提にあります。
現在は統計力学で頻繁にでてくるものです。しかし確率過程でないものについては当てはまりません。
それを「大数の法則」に頼って「標本数が多ければガウス分布に近づく」というのが成り立つとしているのです。
しかし、人口統計にしてもセンター入試の得点分布にしても明らかにガウス型ではありません。現実に「大数の法則」は成り立っていないにもかかわらず成り立っているとしている例が多いのです。
だから１次のモーメントと２次モーメントだけですんでしまうのが一般的だと思ってしまうのです。あなたのような質問が出てくることになります。

ただ「ずれの評価に使うとしたらどちらの表現の方がいいか」というのとは別の問題です。
場面によるでしょう。
ゲームプログラムなどで離散的に位置が与えられていて、ずれ評価を簡単にやりたいというようなときなどでしたら＜差＞でやる場合もあるかもしれません。それは「統計」という場面とは少し異なるように思います。　

- 3
- 件

通報する

No.3

回答者： mikeyan
回答日時：2011/04/08 01:03

( |a| ＋ |b| ) /2 と ( a＾2＋b^2 ) / 2 は明らかに違うものですよね？

統計では、２乗平均を分散といいます（厳密には少しことなるかも）
Aという分布と、Bという分布を足し合わせた分布A+Bの分散は、
Aの分散とBの分散を足したものとなります。
このように、２乗平均は、分布のばらつきをあらわす本質的な量だからです。

- 4
- 件

通報する

No.2

回答者： kamiyasiro
回答日時：2011/04/08 00:58

偏差あるいは乖離の絶対値の平均という面白いことに気づきましたね．

でも，いまの計算だと，０からの乖離ですよね．
本来は，ばらつきというのは，平均のまわりにある乖離です．
では，平均を基準に偏差の絶対値をとるとどうなるでしょうか．
計算するまでもなく，常に０になります．
これでは，乖離の大きさの指標にはなりません．

では，乖離の２乗というのは何なのかということになりますが，
これは，単に符号を消す，という意味だけではありません．
平均から離れているものには，重いペナルティを掛けるという意味があります．
別に1.5乗のペナルティでもよさそうですが，
テーラー展開とか，色々な数学的処理上，２乗が都合がいいのです．

平均からの偏差の大きさを測るために，
偏差の２乗和の平均を取って分散とする．
測っているものが，標本であれば，ｎで割らずに（ｎ－１）で割る．

これが分散の求め方です．