アプリ版:「スタンプのみでお礼する」機能のリリースについて

不偏分散を計算するときに標準偏差和をn-1で割りますが、なぜ-1なのでしょうか?

「なぜnでなくn-1なのか?」に関しては、計算時点で標本化されていない外れ値もあるだろうと想定することで、その背後にある母集団の"より実際に近い散らばり具合"を求めたいから、と理解しています。

ですが、なんで-1なのでしょう?

以下は予想ですが、少ないデータからの分散の計算結果→より多いデータからの分散の計算結果、この比較データを大量に集計した結果、だいたいn-1で割ると誤差を抑えられるんじゃね?という結果になった…みたいな流れな気がしています。詳しい方教えてください

A 回答 (5件)

これ、最初は「なんで?」という大きな疑問ですよね。


みんな必ずそういう疑問を持ちます。
ポイントは、「未知の母集団の母平均、母分散を、限られた標本から推定するときのやり方」ということです。

考え方としては、極めてザックリといえば

・「分散」の計算には「平均」を使う。
・通常は「母集団」は未知なので、「母平均」も「母分散」も未知である。

・従って、一部のサンプルから得られる「標本平均」「標本分散」から「母平均」「母分散」を推定することになる。

・たくさんの標本群を採って来れば、その「標本平均」の「期待値」は「母平均」に一致すると推定できる。
・なので「標本平均」そのものを「母平均」の推定値とする。

・「標本分散」は、標本平均」を使ってを求めることになる。
・たくさんの標本群を採って来ても、その「標本分散」の期待値は「母分散」には一致しない。何故なら、各標本の「標本分散」にはその標本の「標本平均」の不確実さが入り込んでいるから。
・その「標本平均」の不確実さ(母平均と標本平均の差)も考慮するため「標本サイズ n」ではなく、「n - 1」で割って、少し大きめの「分散」に補正する。
・これを「標本」から推定した「母分散」とする。

というようなことです。

もちろん、テキトーに「n を (n - 1) にしている」ということではなく、数学的に意味があります。
式変形をきちんと追いたければ、下記のサイトなどが参考になると思います。

https://stats.biopapyrus.jp/stats/var.html
    • good
    • 2
この回答へのお礼

やってみます

回答ありがとうございます。記号式を見てるとねむくなるので、なるべく言葉で解釈しながら勉強していたのですが、どうもなぜn-1なのかという疑問は記号と仲良くならないと厳密な理解は難しそうですね。頑張れば理解できそうな気配を感じるので、手元の課題で慣れてからもう一度向き合って見ます。

分かりやすそうなサイトの紹介ありがとうございますー

お礼日時:2022/07/05 09:17

No.4 です。


ちょっと補足。

統計には、大きく分けて
(a) 既存のデータを単に処理するだけの「記述統計」

(b) 限られた標本のデータから、未知の「母集団」を推定するための「推定統計」
の2つがあります。
統計が本領を発揮するのは (b) の方です。
1000~2000人を対象とした「世論調査」で、全国民・全有権者の傾向や動向を推定できるのもそのおかげです。

ふつうの平均や分散を公式から求めるのは (a) です。
n個の標本データから、「標本平均」や「標本分散」を求めるには「データ数 n 」で割ります。

「不偏分散」は (b) の話です。
「得られたデータを処理している」のではなく、「得られたデータから未知の母集団を推定」しているのです。
「限られた標本データ」から「未知の母集団の母分散」を推定したものが「不偏分散」です。
    • good
    • 1

μを母集団における平均値


σを母集団の標準偏差
xᵢをデータ
xを平均
とすると

σ²=Σ(xᵢ-μ)²/n=Σ(xᵢ-x)²/n+σ²/n

この式をσ²で解くと
σ²=Σ(xᵢ-x)²/(n-1)
    • good
    • 1

分散をサンプルから求めると、偏差平方和を計算する際に引かなければならない平均値はサンプリングの度に変わるから、その都度計算する必要があります。



すると、それらの偏差x(サンプル平均を引いた値)にはΣx=0という線形制約が掛かります。

これは、言い換えると、nー1個のサンプルは自由に値を変えることが出来るが、残りの1個は他が決まればおのずと決まってしまうことになります。

つまり、ばらつきを論じる際に、実際に自由にばらついているサンプル数(これを自由度と言う)はn-1個だから、その値で均します。


なぜ、ー1かは、そのサンプルに掛かっている線形制約の数が1だからです。

重回帰分析で誤差の検定をやるときは、求めた偏回帰係数の数が3個だと、定数項も含めて、ー4自由度が減ります。

多元配置実験などでも、誤差分散の自由度は、推定したパラメータの自由度だけ減っていきます。常にー1ではないです。


全数のときも、Σx=0だろうと思われるかもしれませんが、このときは最尤法と言う枠組みで分散を求めるので、そういう問題は生じません。
    • good
    • 1
この回答へのお礼

がんばります

線形制約が調べても全く分からないので "残りの1個は他が決まればおのずと決まってしまう" 理由はよく分からないです。

重回帰分析、偏回帰係数、定数項、自由度、多元配置実験…全部意味不明なので、どうやら今の私は勉強不足なようです。スライム倒してはしゃいでちたら、ラスボスにワンパンで棺桶にされたような気分です。

現在統計の基礎を勉強中なのですが、これから先に学習を進めるにあたって、上記の用語以外に、「ここをよく読み込んだ方が、今回の質問内容についての理解深まるよ」という要点や用語などありますでしょうか?

お礼日時:2022/07/04 18:26

電線柱の数とその全距離から、


平均区間距離を計算するのと同じです。
    • good
    • 1

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!