不偏分散を計算するときに標準偏差和をn-1で割りますが、なぜ-1なのでしょうか？「なぜnでなくn-

Question

不偏分散を計算するときに標準偏差和をn-1で割りますが、なぜ-1なのでしょうか？

「なぜnでなくn-1なのか?」に関しては、計算時点で標本化されていない外れ値もあるだろうと想定することで、その背後にある母集団の"より実際に近い散らばり具合"を求めたいから、と理解しています。

ですが、なんで-1なのでしょう？

以下は予想ですが、少ないデータからの分散の計算結果→より多いデータからの分散の計算結果、この比較データを大量に集計した結果、だいたいn-1で割ると誤差を抑えられるんじゃね？という結果になった…みたいな流れな気がしています。詳しい方教えてください

yhr2 · Accepted Answer

これ、最初は「なんで？」という大きな疑問ですよね。
みんな必ずそういう疑問を持ちます。
ポイントは、「未知の母集団の母平均、母分散を、限られた標本から推定するときのやり方」ということです。

考え方としては、極めてザックリといえば

・「分散」の計算には「平均」を使う。
・通常は「母集団」は未知なので、「母平均」も「母分散」も未知である。

・従って、一部のサンプルから得られる「標本平均」「標本分散」から「母平均」「母分散」を推定することになる。

・たくさんの標本群を採って来れば、その「標本平均」の「期待値」は「母平均」に一致すると推定できる。
・なので「標本平均」そのものを「母平均」の推定値とする。

・「標本分散」は、標本平均」を使ってを求めることになる。
・たくさんの標本群を採って来ても、その「標本分散」の期待値は「母分散」には一致しない。何故なら、各標本の「標本分散」にはその標本の「標本平均」の不確実さが入り込んでいるから。
・その「標本平均」の不確実さ（母平均と標本平均の差）も考慮するため「標本サイズ n」ではなく、「n - 1」で割って、少し大きめの「分散」に補正する。
・これを「標本」から推定した「母分散」とする。

というようなことです。

もちろん、テキトーに「n を (n - 1) にしている」ということではなく、数学的に意味があります。
式変形をきちんと追いたければ、下記のサイトなどが参考になると思います。
↓
https://stats.biopapyrus.jp/stats/var.html

yhr2 · Answer

No.4 です。
ちょっと補足。

統計には、大きく分けて
(a) 既存のデータを単に処理するだけの「記述統計」
と
(b) 限られた標本のデータから、未知の「母集団」を推定するための「推定統計」
の2つがあります。
統計が本領を発揮するのは (b) の方です。
1000～2000人を対象とした「世論調査」で、全国民・全有権者の傾向や動向を推定できるのもそのおかげです。

ふつうの平均や分散を公式から求めるのは (a) です。
ｎ個の標本データから、「標本平均」や「標本分散」を求めるには「データ数 n 」で割ります。

「不偏分散」は (b) の話です。
「得られたデータを処理している」のではなく、「得られたデータから未知の母集団を推定」しているのです。
「限られた標本データ」から「未知の母集団の母分散」を推定したものが「不偏分散」です。

t_fumiaki · Answer

μを母集団における平均値
σを母集団の標準偏差
xᵢをデータ
xを平均
とすると

σ²=Σ(xᵢ-μ)²/n＝Σ(xᵢ-x)²/n+σ²/n

この式をσ²で解くと
σ²=Σ(xᵢ-x)²/(n-1)

kamiyasiro · Answer

分散をサンプルから求めると、偏差平方和を計算する際に引かなければならない平均値はサンプリングの度に変わるから、その都度計算する必要があります。

すると、それらの偏差ｘ（サンプル平均を引いた値）にはΣｘ＝0という線形制約が掛かります。

これは、言い換えると、nー１個のサンプルは自由に値を変えることが出来るが、残りの１個は他が決まればおのずと決まってしまうことになります。

つまり、ばらつきを論じる際に、実際に自由にばらついているサンプル数（これを自由度と言う）はn－1個だから、その値で均します。

なぜ、ー１かは、そのサンプルに掛かっている線形制約の数が１だからです。

重回帰分析で誤差の検定をやるときは、求めた偏回帰係数の数が３個だと、定数項も含めて、ー４自由度が減ります。

多元配置実験などでも、誤差分散の自由度は、推定したパラメータの自由度だけ減っていきます。常にー１ではないです。

全数のときも、Σｘ＝0だろうと思われるかもしれませんが、このときは最尤法と言う枠組みで分散を求めるので、そういう問題は生じません。

angkor_h · Answer

電線柱の数とその全距離から、
平均区間距離を計算するのと同じです。

不偏分散を計算するときに標準偏差和をn-1で割りますが、なぜ-1なのでしょうか？ 「なぜnでなくn-

これ、最初は「なんで？」という大きな疑問ですよね。

No.4 です。

μを母集団における平均値

分散をサンプルから求めると、偏差平方和を計算する際に引かなければならない平均値はサンプリングの度に変わるから、その都度計算する必要があります。

電線柱の数とその全距離から、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

不偏分散を計算するときに標準偏差和をn-1で割りますが、なぜ-1なのでしょうか？「なぜnでなくn-