母集団の分散を求める式に (n-1)因子が登場する理由について

Question

長文の質問となること、お許しください。

表題の件、基本的なこととして、
『標本分散s^2は、n個の標本の分散であり、
　不偏分散σ^2は、n個の標本から推定されるN個の母集団の分散の期待値であり、
　母集団分散は、N個の母集団の真の分散（神のみぞ知る）である。
　ただし、しばしば、不偏分散をもって母集団分散という』
と理解しているつもりですが、(n-1) という因子について長年悶々としており、
今さらなのですが有識者の方々にお尋ねさせていただきます。

なお、引用資料ごとに用語の使い方･表記が異なるので、
ここでは以下のように統一して表記します。
標本数：n
母集団数：N
標本平均：X（xバーと記述したいがフォント上 表現ができないので）
母集団平均：μ
標本分散：s^2（sの2乗がフォント上 表現ができないので）
不偏分散：σ^2（σの2乗がフォント上 表現ができないので）
標本標準偏差：s
不偏標準偏差：σ

具体的なお尋ね事項を2つ、以下に列記します。


【質問1】
「Wikipedia 標準偏差」（https://ja.wikipedia.org/wiki/標準偏差）の記述を参考にすると
（補足1にScreen Capture 1 あり。u^2 は μ^2 と読み替えてください）、
E[s^2] = ((n-1)/n) * (σ^2)　　（式1）
となることが示される、とありますが、（n-1）因子はどこから来るのでしょうか。
統計学上の経験則なのでしょうか。 それとも統計学的な算術で得られる近似式なのでしょうか？
等号で記述されていますので、近似式ではないですよね。

「標本分散と不偏分散の関係について」
（https://stats.biopapyrus.jp/stats/var.html）においても
（補足2にScreen Capture 2 あり。Xバーは xバーを意味する X と読み替えてください）、
「よって、」の直前の式が同じことを表しています。さらに、
「上式のように n-1 で割ることで、母分散 σ と等しくなる」と意味深な記述があります。

さらにさらに、「母分散と不偏分散」（https://staff.aist.go.jp/t.ihara/dispersion.html）には
（補足3にScreen Capture 3 あり。m は n と読み替えてください）、
「標本の大きさが m なのに不偏分散の自由度が (m-1) であるのは、
　不偏分散を求める式の中の m 個の観測値（xi）がお互いに完全には独立ではなく、
　どれか一つの観測値は他の (n-1) 個の独立な観測値と標本平均（X）から
　求められるからです。」
とあります。

いずれにおいても、説明が端折られているようで理解できません。よろしくお願いします。

【質問2】
質問1ともかぶるのですが、同じ「Wikipedia 標準偏差」の最後の方に、
σ^2 ≒ n/(n-1.5) * s^2　　（式2）
と等価な式（標準偏差Dはσと表記し直し、両辺とも2乗して分散の表現式に変換、
～～は≒と表記）と思しき式2があります。
s^2 = ((n-1)/n) * (σ^2)　　（式1から期待値を示すE[ ]を省略）
s^2 ≒ ((n-1.5)/n) * σ^2　　（式2の両辺入替えおよび変形）
はどういう関係にあるのでしょうか。

質問1で引用のWikipediaによれば、N>>n であろうが、N>>>>n であろうが、
σ^2 = n/(n-1) * s^2　　（式1）
が導かれていると思われる一方で、同じWikipedia 内で、N>>>>nの場合には、
s^2 ≒ ((n-1.5)/n) * σ^2
だという訳です。

以上、長文となりましたが、ご教示のほどよろしくお願いいたします。

yhr2 · Accepted Answer

最初に書かれている通り、

＞母集団分散は、N個の母集団の真の分散（神のみぞ知る）である。

であって、「母集団の分散」は不明です。さらに言えば「母集団の平均」だって「神のみぞ知る」です。
それを限られた「標本」から推定するのが「推測統計」ということです。

標本をたくさんとって平均すれば、何となく「母集団の平均」に近づきそうだということは、容易に想像できますよね。でも、どうしてそうなるのか、きちんと説明できますか？
標本のサイズが小さいときには、「母集団の平均」に対する「標本平均」の誤差が大きいです。標本サイズを大きくすれば、「母集団の平均」に対する「標本平均」の誤差は小さくなります。つまり『「母集団の平均」に対する「標本平均」の誤差』は統計的なものです。

次に、標本を採って「標本の分散」をとれば、「母集団の分散」に近づきますか？　「標本の分散」を計算するためには「標本の平均」を使わないといけませんが、その「標本の平均」は上に書いたように「母集団の平均」に近いとはいえ「母集団の平均」ではなく、「母集団の平均」に対して「統計的な誤差」を持っています。
この『「母集団の平均」に対する「標本平均」の不確定さ』に起因して、「母集団の分散」を推定するときに、サンプルサイズを n として、通常「サンプルサイズ n で割る」ところを「『「母集団の平均」に対する「標本平均」の不確定さ』のため (n - 1) で割る」ということをやっているのです。その分
　母集団の分散 = 標本分散
ではなく、それを「少し大きく = n/(n - 1)」したものを「母集団の分散の推定値」としているのです。
つまり、「n - 1」の「 -1」は、『「母集団の平均」に対する「標本平均」の不確定さ』に起因する、と考えればよいのです。
（ただし、以上の説明は正確ではありません。あくまで「イメージ」を理解するための説明です。でも、この後しばしば出てくる「自由度」のイメージをつかむ上で、このイメージが必要になります。つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために「自由度」が1つ減る、ということです）

この「定性的な説明」は、こんなサイトで確認してください。
https://mathtrain.jp/huhenbunsan

でも、キチンと計算してもそうなることが確認できます。ネット上で探せば、「きちんとした計算」を示しているサイトは結構ありますよ。
http://kosugitti.sakura.ne.jp/wp/wp-content/uploads/2013/08/est.pdf
https://stats.biopapyrus.jp/stats/var.html

ただ、「計算」だけトレースしても、「へ～」というだけで「狐につまされたような」感覚が残ると思いますので、前半の「イメージ」を持っておくとよいと思います。

yhr2 · Answer

No.4です。「お礼」に書かれたことについて。

＞補足5に添付した冒頭の式
＞s^2 = (1/n) * Σ(xi-X)^2　（式1）
＞これは理解できます。

はい。サイズ n のサンプルの分散です。

＞そして、(式5)
＞σ^2 = E[(xi-μ)^2]　（式5）
＞ですが、正しくは
＞σ^2 = (1/n) * ΣE[(xi-μ)^2]　i=1～n　（式5'）
＞でしょうか。

いいえ。「期待値」は要するに「平均値」ですから、
　E[(xi-μ)^2] = {(x1 - μ)^2 + (x2 - μ)^2 + ･･･ + (xn - μ)^2} /n = (1/n){Σ(xi - μ)^2 }
です。なので
　ΣE[(xi-μ)^2] = nE[(xi-μ)^2]
ですよ？

「期待値」の意味を正しく理解できていますか？

yhr2 · Answer

No.2&3 です。#1 の「お礼」に書かれたことについて。

＞ご教示いただいた3つめのサイト
＞https://stats.biopapyrus.jp/stats/var.html
＞は、質問1でも引用しましたが一番勉強になったサイトで、
＞式の展開はフォローできたものの、最後の最後に
＞「上式のように n-1 で割ることで、母分散 σ と等しくなる」
＞で説明が終わってしまいました。

ああ、そうですね。
質問者さんの挙げられたリンク先までは見ていませんでした。

「説明が終わってしまった」とありますが、きちんと書いてあるのでは？

標本分散 s^2 の期待値が、「母分散：σ^2」（実際は未知）を使って
　E[s^2] = σ^2 - (1/n)σ^2 = [(n - 1)/n]σ^2
と書けるわけですよね？
つまり
　σ^2 = [n/(n - 1)]E[s^2]　　　①

これが求めるものなのではないのですか？

＞【質問1】
＞「上式のように n-1 で割ることで、母分散 σ と等しくなる」と意味深な記述があります。

ちょっと文章の引用が「舌足らず」ですね。
「標本から分散を計算するとき、n で割るのではなく、上式のように n-1 で割ることで」
ですよね？　つまり
「通常、分散を計算するときには『２乗偏差和』を n で割るが、不偏分散のときには n ではなく、上式のように n-1 で割る」
というのが全文ですね。
　E[s^2] = (1/n)Σ(xi - Xbar)^2
（サイズ n の標本 xi (i=1～n) と標本平均 Xbar から標本分散を求める式）
ですから、①は
　σ^2 = [1/(n - 1)]Σ(xi - Xbar)^2
となることを言っているだけで、何も「意味深」ではありませんが？

＞【質問2】

「補足４」で挙げられているのは、「分散」の話ではなく「標準偏差」の話ですよね？
通常の「記述統計」では「標準偏差は分散の平方根」なのですが、「不偏分散」と「不偏標準偏差」との関係はそうなりませんよ、と言っているのです。
なので、「不偏分散」はよく使いますが、「不偏標準偏差」はほとんど使いませんね。

yhr2 · Answer

No.2です。ちょっと訂正。

「定性的な説明」の最後の方に書いた

＞つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために「自由度」が1つ減る、ということです

は間違いでした。

「つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために、サンプルサイズ n に対して「自由度」は1つ減った (n - 1) になる、ということです」

に訂正します。

Tacosan · Answer

式1 はきちんとがんばって計算するとそうなるんじゃなかったかな.

母集団の分散を求める式に (n-1)因子が登場する理由について

最初に書かれている通り、

No.4です。

No.2&3 です。

No.2です。

式1 はきちんとがんばって計算するとそうなるんじゃなかったかな.

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング