分散の公式で・・

Question

各データと平均の差を２乗してデータ数で割る
という方法と
各データと平均の差を２乗して(データ数-1)で割る
という方法の２つがあるのですが、どちらが正しいのでしょうか？
普遍分散と分散と呼ばれているそうですが、何が何だかで・・
下記に２つ式が載っています。どうかご享受願お願いいたします。
http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE

kgu-2 · Accepted Answer

母集団のデータ(対象とするもの全て)なら、分散。

しかし、母集団のデータを全て得るのは、困難です。ある学校のあるクラスについて知りたいのなら、50人程度だから、なんとかなるでしょう。
　それでも、その学年、その学校、その市町村のその年齢、と増えるに従って、困難になります。
　知りたいのは、母集団の分散です。そこで統計学的な方法(無作為抽出)で何人かをサンプルとして選びだし、母集団の分散を推定します。この場合は、n-1で割った不偏標準偏差の方が母集団の分散に近いのだそうです。その根拠は知りませんが、数学的に証明出来るとのことです。

Tacosan · Answer

昔見た本だと,
「標本から分散を計算するとどうしても母集団の分散より小さくなる傾向がある (なぜなら標本平均は＊標本から得られた分散＊を＊最小化＊するため値となる) ため, 不偏分散を計算するためにはデータ数ではなくデータ数から 1 だけ減らした値で割らないといけない」
って書いてあったような.
で, なんで 1 かというと「平均を固定したまま標本をとろうとすると, どうしても最後の 1個は自動的に決まってしまうから」(つまり自由度が 1 減るから) だとか.

backs · Answer

ウィキぺディアにも「標本数nが大きければ，分散と不偏分散の差は小さい。」と書いてありますが,前者の場合だと母分散の分散と一致せず,少々小さくなる傾向があります。

サンプルサイズが大きければそれほど問題にはなりませんが,サンプルサイズが小さい場合は後者の不偏分散の公式を用いた方が良いわけです。ちなみにウィキぺディアには「標本数」とありますが,正しくは標本の大きさもしくはサンプルサイズですね。

Willyt · Answer

統計データというのは対象とするデータを全部集め、これによって処理するのが筋なのですが、これが不可能な場合、限られたデータで処理をしなけければならないことの方がむしろ多いくらいです。このような場合には全部のデータが揃っているときの分散と限られた数からだけ得られた分散は当然変って来ます。そのような場合には二乗平均をとるときにデータの数から１を減じたもので平均をとるということが行なわれます。つまり限られた標本で母集団を推定するときには安全を見て少し太目の分散を摂るべきであるという考え方からこういう方法をとるのです。
　ではこれが２や３ではなく、どうして１なのかということに関しては尋ねない方が身のためです。難しすぎるのです。信頼してください(^_-)　実は私もパスしてます(^_^;)

分散の公式で・・

母集団のデータ(対象とするもの全て)なら、分散。

昔見た本だと,

ウィキぺディアにも「標本数nが大きければ，分散と不偏分散の差は小さい。

統計データというのは対象とするデータを全部集め、これによって処理するのが筋なのですが、これが不可能な場合、限られたデータで処理をしなけければならないことの方がむしろ多いくらいです。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　統計データというのは対象とするデータを全部集め、これによって処理するのが筋なのですが、これが不可能な場合、限られたデータで処理をしなけければならないことの方がむしろ多いくらいです。