標準偏差を求めるにあたり

Question

もうすでに質問されていることかもしれませんが・・・質問します。
標準偏差を求めるときに、Σ(測定値ー平均値)^2を、母集団で考える場合はnで割り、標本で考える場合はn-1で割って、平方根を取って算出しますよね。
標本で考える場合自由度が１下がるため、回数から１引いた数で割ればいいとテキストや考えたらなんとなくイメージすることができるのですが、数学的に考えた場合、なんで１を引くのか？どういう意味を持っているのか？理解できませんし、分かりません。１引くことがおそらく数学的に非常に重要なことなのでしょうが...気持ち悪くて気になります。

私自身、勉強不足で標準偏差自体曖昧な理解なのですが、疑問に思ったので、どなたか分かる方教えてください。

transaction · Accepted Answer

標準偏差は式に平方根があって煩雑になるので、分散で話をします。標本平均をm、母平均をμ、標本分散をs^2、母分散をσ^2、母分散の推定値をσ’^2とします。

確認しますと、
(1) s^2=Σ(x-m)^2/n
(2) σ’^2=Σ(x-m)^2/(n-1)
です。s^2のほうが分母が大きいので、s^2 <σ’^2となっています。

母分散は、x-μを2乗して平均したものです。しかし、μはわかりませんので、代わりにmを使うことになります。それが (1) です。

しかし、mは、用いた標本によって、ちょっとずつ変わってきます。標本平均m自体も、平均と分散とをもって分布を描く値です。mの平均（平均の平均）はμ、分散はσ^2/nになります。
(3) 標本平均mの分散=σ^2/n

===ここから標本平均の分布の話です。
平均の分布というのはわかりづらいかもしれませんが、たとえば100 m走のタイムを考えます。同じ母集団から10人抽出して平均mを出すとします（つまり標本の大きさはn=10です）。母集団から10人選ぶ方法はいくらでもあるので、何度も10人抽出してmを出してみます。すると、当たり前ですが、mは計算するたびに別の値になります。このmの分布は、平均の誤差を表わしていると考えられます。この分布は正規分布であることが知られており、平均はμ、分散はσ^2/nになります。実際は母集団からの抽出は1回しかしませんので、この値を知っていることは統計学の基礎になります。なぜ平均の分散がnで割られているかというと、nに実際に数を代入すればわかります。n=1なら、標本平均の分布は、ただひとつのデータそのままの値の分布になるので、母集団の分布に一致します。また、nが大きくなればなるほど、分散は小さくなります。これは、10人で測るよりも、1000人で測ってほうが誤差が小さく、正確であることを示しています。
===ここまで標本平均の分布の話です。

ここから、
(4) 母分散=標本平均からの分散+標本平均自体の分散
を考えなければなりません。(1)、(3) を (4) に代入すると、
(5) σ^2 = Σ(x-m)^2/n+σ^2/n
です。これをσ^2について整理すると、
(6) σ^2=Σ(x-m)^2/(n-1)
です。このσ^2を推定値σ’^2として用いるということなので、(2) と一致することがわかります。

age_momo · Answer

母平均(μ)が既知である場合は不偏分散も個数nで割ってよいのですが、
これが標本から同時に推定されるものですので結局(n-1)で割ることになります。
(標本平均も真の値からの分散を持つわけで、それを除外するとn-1で割ることになります）

まず、母平均の不偏推定量が1/nΣxi,標本数nの平均mが分散σ^2/nを持つのは
いいでしょうか？それを前提にして
偏差平方和S^2の期待値を考えると

E[S^2]=E[Σ(xi-m)^2]=E[Σ{(xi-μ)-(m-μ)}^2]=E[{Σ(xi-μ)^2}-n(m-μ)^2]
=nσ^2-nσ^2/n=(n-1)σ^2

よってσ^2の不偏推定値は偏差平方和を(n-1)で割ることになります。
その平方根をとったのが標準偏差というわけです。

標準偏差を求めるにあたり

標準偏差は式に平方根があって煩雑になるので、分散で話をします。

母平均(μ)が既知である場合は不偏分散も個数nで割ってよいのですが、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング