不偏分散の分母の n-1

Question

標本平均 Xav を求める式、

　Xav = 1/nΣxi

を不偏分散で用いるため自由度が１減り、不偏分散の分母が n-1 になると思います。

母平均は標本から求めるものではなく（それは標本平均になる）、既知であることが前提であるため上式は不要であり、
標本分散では自由度が減らず分母が n-1 ではなく n になる。

この考えは間違っていないでしょうか？

もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか？
例えば、母集団をクラス４０人のテストの点数とすると（これは母集団と言わない？）、上式より母平均（？）を求めることができます。
母平均が４０個のデータに独立でないため、分散の自由度は１減らす必要がある気がします。
これは結局不偏分散を求めているのでしょうか？

sanori · Accepted Answer

こんばんは。

＞＞＞母平均は標本から求めるものではなく（それは標本平均になる）、既知であることが前提であるため上式は不要であり、
＞＞＞標本分散では自由度が減らず分母が n-1 ではなく n になる。
＞＞＞この考えは間違っていないでしょうか？

間違っていません。
正しいです。
ただし、「標本分散」は標本の平均を用いて計算しますので、
母集団の平均を用いて計算した分散より小さくなることに注意してください。
（だから、「標本分散」は、あまり有用でなく、分母を　ｎ－１　とした不偏分散が使われるのです。）


＞＞＞
例えば、母集団をクラス４０人のテストの点数とすると（これは母集団と言わない？）、

４０人がクラス全員なのであれば、それは母集団と言います。


＞＞＞上式より母平均（？）を求めることができます。

そうです。


＞＞＞母平均が４０個のデータに独立でないため、分散の自由度は１減らす必要がある気がします。
＞＞＞これは結局不偏分散を求めているのでしょうか？

いえ。

不偏分散は母分散の推定値ですから、分母を　ｎ－１　にする必要があります。
しかし、４０個すべてのデータから得られた母平均や母分散は４０個のデータと独立ではありませんが、
情報が４０個あります。
ですから、分母を　ｎ－１　（＝３９）　にする必要がありません。


以上、ご参考になりましたら。

sanori · Answer

＞＞＞ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。。。？？

？

ｎを増やせばそうなるかということですか？
だとすれば、自明と言えるかどうかはわかりませんが、近づくというのは正解です。

具体的な　ｎ　と　ｎ－１　を挙げれば、
１０で割るのと９で割るのとでは、約１０％の差が出るのに対し、
１０００で割るのと９９９で割るのとでは、約０．１％の差しか出ません。

sanori · Answer

＞＞＞不偏分散で使うのは母平均ではなく標本平均だと思います。

そうです。


＞＞＞標本平均と不偏分散は既知なので不足している情報はないように思えます。

いいえ。
母平均と母分散は未知ですから、限られた標本数から母集団の何かを表すときには、情報が少ないことになります。

母集団の全データがわからなくても、
仮にもしも、母平均だけという１個の情報を足すことができれば、
前回述べた「偏り」がなくなり、
母平均を使って計算した標本の分散は、そのまま母分散の推定値となります！！！！！

ところが、母平均は未知であるわけです。



抜き取った標本を新たに母集団のように扱うという考え方であれば、
当然、情報は不足していることにはなりませんよ。
そうであれば、標本分散（分母はｎ）すればよいでしょう。

しかし、標本分散という概念は、あくまでも標本だけのことを表すものであって、
母集団を表すものではありません。
よって、使い道がありません。
有用性があるのは、母集団の分散の推定値（＝不偏分散）です。


標本のデータが既知ということは、
・標本平均は既知。
・母集団の平均は未知。
・標本分散は既知。（分母はｎ）
そして、
・母集団の分散は未知であるが、その推定値は不偏分散である。（分母はｎ－１）

ということです。

eatern27 · Answer

その式は、母集団が無限に大きい場合の式です。

有限(N個)の母集団から、ダブりがないようにサンプルを抽出した場合の不偏分散は、別の式になります。
※確か、母集団が無限の場合の、(N-1)/N倍とかだった気が。

sanori · Answer

お礼のお言葉をありがとうございました。

＞＞＞
一つわからない点があります。
＞しかし、４０個すべてのデータから得られた母平均や母分散は４０個のデータと独立ではありませんが、
＞情報が４０個あります。
これは不偏分散のときも同じではないでしょうか。
（普通こんなことはしませんが）４０個中３９個のデータを抽出した場合は分母が n-1 になって、
４０個中４０個のデータを抽出した場合は分母が n になるのはどうしてでしょうか。


母集団がたとえば１０００個であって、そこから４０個をサンプリングするとき、
母集団の平均は未知です。サンプルの平均は既知です。
そして、
母集団の分散は未知です。サンプルの分散は既知です。

サンプルの分散を求めるときは、母集団の平均値は使わず、サンプルの平均値を使います。

そうすると、
サンプルの分散　＜　母集団の分散
となります。
なぜならば、個々のサンプルの値は、
母集団の平均値よりサンプルの平均値の近くに偏っているからです。

ですから、
サンプルの分散が‘ずるく’小さい値になっている逆ハンデを解消するには、
母集団の平均値を使えばよいということになりそうです・・・・・
・・・・・が、しかし、
サンプリングの場合は母集団の平均値はわかりません。
それは、サンプルの分散の計算を、母集団の分散の計算と比べると、
「母集団の平均値」という情報が１つ足りないということを意味します。
ですから、母分散の推定値である不偏分散では、分母となるサンプル数のｎから１を引かないといけないのです。

逆に言えば、
全体の値がすべてわかっている場合、不足している情報はないので、
分散を求めるときに分母から１を差し引く必要がないということです。

不偏分散の分母の n-1

こんばんは。

＞＞＞ところで、標本平均の平均は母平均に近づくことは自明なことでしょうか。

＞＞＞不偏分散で使うのは母平均ではなく標本平均だと思います。

その式は、母集団が無限に大きい場合の式です。

お礼のお言葉をありがとうございました。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング