標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

Question

お世話になっております。
統計学初心者で、母平均の信頼区間の推定について勉強しています。

勉強している中で、標本分散が母分散より少し小さくなるということ、
そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。

しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。

わかりやすい形で教えて頂けないでしょうか？
どうぞよろしくお願い申し上げます。

sanori · Accepted Answer

こんばんは。

数式ではなく、言葉で説明したいと思います。

母分散というのは、たとえば、学校で試験を受けた生徒全員の点数の分散に適用されます。（生徒の数＝ｎ）
この場合は、母平均がわかります。

ところが、一部の生徒だけの点数だけを取り出して、その分散を求める場合は、
それらの生徒の平均値（標本平均）はわかりますが、母平均は、わかりません。

つまり、前者に比べて、後者のほうが、真の平均値（母平均）がわからない分だけ、
情報量がｎ個より１個少ないことになります。
これを「自由度」が１個少ない、と言います。

後者の場合で、分母をｎ－１にすることにより、（分母をｎにしたときよりも）分散を多く見積もらなければいけないのは、そういう理由によるのです。

別の言い方をすれば、
真の平均値（母平均）がわからない標本抽出の統計では、
１／ｎをかける計算方法で分散を求めてしまうと、ずるく小さい分散になってしまうので、
分母をｎ－１にすることによって分散値を大きい方に補正して、そのハンデが解消されてフェアな状況になるのです。


標本分散が母分散より少し小さくなる理由について
もう少し細かい話もしますね。


分散を計算するときには、１／ｎをかけるか１／（ｎ－１）をかけるかはさておき、
Σ の部分は、
Σ（各データ値　－　平均値）^2
という計算をしますよね。

Ａ
標本分散のΣの計算の仕方は、　Σ（標本の各データ値　－　標本の平均値）^2

Ｂ
母分散のΣの計算の仕方は、　Σ（母集団の各データ値　－　母集団の平均値）^2
です。

実は、Σの値は、計算対象のデータ自身の平均値を用いて計算された場合に最小（極小）になります。
（説明を省きますが、最小二乗法と同様の考え方です。）
極端な例を挙げれば、０．１、０．２、０．３、０．４、０．５　という５個のデータがあるとき、
「平均値」を１万としてΣを計算したことをイメージすれば、直感的に理解できるかと思います。
ですから、上記のＡの計算で、もしも平均値として標本平均の代わりに母平均を採用したとすれば、
Σの計算結果は少し大きくなります。
逆に言えば、抽出した標本データだけから求まる標本平均を使うと、
Σが最も小さく抑えられる（＝ずるい）ということです。


以上、ご参考になりましたら。

hugen · Answer

数式による説明

参考URL：http://runner2.ge.knct.ac.jp/math/4/

backs · Answer

>　標本分散が母分散より少し小さくなる理由

数式による説明を理解するしかありません。実務的には「サンプルサイズが小さいときにnで割ってしまうと"不偏分散よりも（不偏分散であっても、母分散より小さめに出ることがあります）"小さめの値が出てしまう」ということを理解しておけば良いです。

>　不偏分散の算出においてn-1でわる理由

これも同様。内容を理解したいのであれば数式を理解するしかありません。実務的には「1つの母数を推定することによって1つの自由度を失うため」ということを理解しておけば問題ありません。

自分にとってどれ程の理解が必要か、あるレベルの理解を得るためにどれ程の力を注ぐ必要があるか、これらを考えることが重要ですね。

標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

こんばんは。

数式による説明

> 標本分散が母分散より少し小さくなる理由

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

>　標本分散が母分散より少し小さくなる理由