重要なお知らせ

「教えて! goo」は2025年9月17日(水)をもちまして、サービスを終了いたします。詳細はこちら>

【GOLF me!】初月無料お試し

長文の質問となること、お許しください。

表題の件、基本的なこととして、
『標本分散s^2は、n個の標本の分散であり、
 不偏分散σ^2は、n個の標本から推定されるN個の母集団の分散の期待値であり、
 母集団分散は、N個の母集団の真の分散(神のみぞ知る)である。
 ただし、しばしば、不偏分散をもって母集団分散という』
と理解しているつもりですが、(n-1) という因子について長年悶々としており、
今さらなのですが有識者の方々にお尋ねさせていただきます。

なお、引用資料ごとに用語の使い方・表記が異なるので、
ここでは以下のように統一して表記します。
標本数:n
母集団数:N
標本平均:X(xバーと記述したいがフォント上 表現ができないので)
母集団平均:μ
標本分散:s^2(sの2乗がフォント上 表現ができないので)
不偏分散:σ^2(σの2乗がフォント上 表現ができないので)
標本標準偏差:s
不偏標準偏差:σ

具体的なお尋ね事項を2つ、以下に列記します。


【質問1】
「Wikipedia 標準偏差」(https://ja.wikipedia.org/wiki/標準偏差)の記述を参考にすると
(補足1にScreen Capture 1 あり。u^2 は μ^2 と読み替えてください)、
E[s^2] = ((n-1)/n) * (σ^2)  (式1)
となることが示される、とありますが、(n-1)因子はどこから来るのでしょうか。
統計学上の経験則なのでしょうか。 それとも統計学的な算術で得られる近似式なのでしょうか?
等号で記述されていますので、近似式ではないですよね。

「標本分散と不偏分散の関係について」
https://stats.biopapyrus.jp/stats/var.html)においても
(補足2にScreen Capture 2 あり。Xバーは xバーを意味する X と読み替えてください)、
「よって、」の直前の式が同じことを表しています。さらに、
「上式のように n-1 で割ることで、母分散 σ と等しくなる」と意味深な記述があります。

さらにさらに、「母分散と不偏分散」(https://staff.aist.go.jp/t.ihara/dispersion.html)には
(補足3にScreen Capture 3 あり。m は n と読み替えてください)、
「標本の大きさが m なのに不偏分散の自由度が (m-1) であるのは、
 不偏分散を求める式の中の m 個の観測値(xi)がお互いに完全には独立ではなく、
 どれか一つの観測値は他の (n-1) 個の独立な観測値と標本平均(X)から
 求められるからです。」
とあります。

いずれにおいても、説明が端折られているようで理解できません。よろしくお願いします。

【質問2】
質問1ともかぶるのですが、同じ「Wikipedia 標準偏差」の最後の方に、
σ^2 ≒ n/(n-1.5) * s^2  (式2)
と等価な式(標準偏差Dはσと表記し直し、両辺とも2乗して分散の表現式に変換、
~~は≒と表記)と思しき式2があります。
s^2 = ((n-1)/n) * (σ^2)  (式1から期待値を示すE[ ]を省略)
s^2 ≒ ((n-1.5)/n) * σ^2  (式2の両辺入替えおよび変形)
はどういう関係にあるのでしょうか。

質問1で引用のWikipediaによれば、N>>n であろうが、N>>>>n であろうが、
σ^2 = n/(n-1) * s^2  (式1)
が導かれていると思われる一方で、同じWikipedia 内で、N>>>>nの場合には、
s^2 ≒ ((n-1.5)/n) * σ^2
だという訳です。

以上、長文となりましたが、ご教示のほどよろしくお願いいたします。

質問者からの補足コメント

  • 【補足1】
    「Wikipedia 標準偏差」(https://ja.wikipedia.org/wiki/標準偏差)より Screen Capture 1

    「母集団の分散を求める式に (n-1)因子」の補足画像1
      補足日時:2019/05/11 23:56
  • うーん・・・

    【補足2】
    「標本分散と不偏分散の関係について」(https://stats.biopapyrus.jp/stats/var.html)より
    Screen Capture 2

    「母集団の分散を求める式に (n-1)因子」の補足画像2
      補足日時:2019/05/11 23:59
  • うーん・・・

    【補足3】
    「母分散と不偏分散」(https://staff.aist.go.jp/t.ihara/dispersion.html)より Screen Capture 3
    (ν^2 は s^2 と読み替えてください)

    「母集団の分散を求める式に (n-1)因子」の補足画像3
      補足日時:2019/05/12 00:20
  • うーん・・・

    【補足4】
    「Wikipedia 標準偏差」(https://ja.wikipedia.org/wiki/標準偏差)より Screen Capture 4

    「母集団の分散を求める式に (n-1)因子」の補足画像4
      補足日時:2019/05/12 00:21
  • 【質問1】の第3段落で誤記がありました。
    「(補足3にScreen Capture 3 あり。m は n と読み替えてください)」としていながら、
    m と記述してしまった所が3か所ありました。
    正しくは以下のとおりです。

    さらにさらに、「母分散と不偏分散」(https://staff.aist.go.jp/t.ihara/dispersion.html)には
    (補足3にScreen Capture 3 あり。m は n と読み替えてください)、
    「標本の大きさが n なのに不偏分散の自由度が (n-1) であるのは、
     不偏分散を求める式の中の n 個の観測値(xi)がお互いに完全には独立ではなく、
     どれか一つの観測値は他の (n-1) 個の独立な観測値と標本平均(X)から
     求められるからです。」
    とあります。

      補足日時:2019/05/12 21:59
  • 【補足5】
    「標本分散と不偏分散の関係について」(https://stats.biopapyrus.jp/stats/var.html)より
    Screen Capture 5

    「母集団の分散を求める式に (n-1)因子」の補足画像6
      補足日時:2019/05/19 21:55
  • 【補足6】
    「標本分散と不偏分散の関係について」(https://stats.biopapyrus.jp/stats/var.html)より
    Screen Capture 6

    「母集団の分散を求める式に (n-1)因子」の補足画像7
      補足日時:2019/05/19 21:56

A 回答 (5件)

最初に書かれている通り、



>母集団分散は、N個の母集団の真の分散(神のみぞ知る)である。

であって、「母集団の分散」は不明です。さらに言えば「母集団の平均」だって「神のみぞ知る」です。
それを限られた「標本」から推定するのが「推測統計」ということです。

標本をたくさんとって平均すれば、何となく「母集団の平均」に近づきそうだということは、容易に想像できますよね。でも、どうしてそうなるのか、きちんと説明できますか?
標本のサイズが小さいときには、「母集団の平均」に対する「標本平均」の誤差が大きいです。標本サイズを大きくすれば、「母集団の平均」に対する「標本平均」の誤差は小さくなります。つまり『「母集団の平均」に対する「標本平均」の誤差』は統計的なものです。

次に、標本を採って「標本の分散」をとれば、「母集団の分散」に近づきますか? 「標本の分散」を計算するためには「標本の平均」を使わないといけませんが、その「標本の平均」は上に書いたように「母集団の平均」に近いとはいえ「母集団の平均」ではなく、「母集団の平均」に対して「統計的な誤差」を持っています。
この『「母集団の平均」に対する「標本平均」の不確定さ』に起因して、「母集団の分散」を推定するときに、サンプルサイズを n として、通常「サンプルサイズ n で割る」ところを「『「母集団の平均」に対する「標本平均」の不確定さ』のため (n - 1) で割る」ということをやっているのです。その分
 母集団の分散 = 標本分散
ではなく、それを「少し大きく = n/(n - 1)」したものを「母集団の分散の推定値」としているのです。
つまり、「n - 1」の「 -1」は、『「母集団の平均」に対する「標本平均」の不確定さ』に起因する、と考えればよいのです。
(ただし、以上の説明は正確ではありません。あくまで「イメージ」を理解するための説明です。でも、この後しばしば出てくる「自由度」のイメージをつかむ上で、このイメージが必要になります。つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために「自由度」が1つ減る、ということです)

この「定性的な説明」は、こんなサイトで確認してください。
https://mathtrain.jp/huhenbunsan

でも、キチンと計算してもそうなることが確認できます。ネット上で探せば、「きちんとした計算」を示しているサイトは結構ありますよ。
http://kosugitti.sakura.ne.jp/wp/wp-content/uplo …
https://stats.biopapyrus.jp/stats/var.html

ただ、「計算」だけトレースしても、「へ~」というだけで「狐につまされたような」感覚が残ると思いますので、前半の「イメージ」を持っておくとよいと思います。
    • good
    • 0
この回答へのお礼

ありがとう

yhr2 さん、早速に応答ありがとうございます。

ご教示いただいた3つめのサイト
https://stats.biopapyrus.jp/stats/var.html
は、質問1でも引用しましたが一番勉強になったサイトで、
式の展開はフォローできたものの、最後の最後に
「上式のように n-1 で割ることで、母分散 σ と等しくなる」
で説明が終わってしまいました。

そして、さらなるネット検索でこの疑問を解こうと思ったものの解決できなかったため、
こちらの教えて!goo で質問させていただいた次第ですが、
https://mathtrain.jp/huhenbunsan
http://kosugitti.sakura.ne.jp/wp/wp-content/uplo …
というサイトがあったのですね。

> でも、キチンと計算してもそうなることが確認できます。
解説していただいた内容および上記サイトの内容をチェックしてみます。
取り急ぎお礼まで。

お礼日時:2019/05/12 21:46

No.4です。

「お礼」に書かれたことについて。

>補足5に添付した冒頭の式
>s^2 = (1/n) * Σ(xi-X)^2 (式1)
>これは理解できます。

はい。サイズ n のサンプルの分散です。

>そして、(式5)
>σ^2 = E[(xi-μ)^2] (式5)
>ですが、正しくは
>σ^2 = (1/n) * ΣE[(xi-μ)^2] i=1~n (式5')
>でしょうか。

いいえ。「期待値」は要するに「平均値」ですから、
 E[(xi-μ)^2] = {(x1 - μ)^2 + (x2 - μ)^2 + ・・・ + (xn - μ)^2} /n = (1/n){Σ(xi - μ)^2 }
です。なので
 ΣE[(xi-μ)^2] = nE[(xi-μ)^2]
ですよ?

「期待値」の意味を正しく理解できていますか?
    • good
    • 0
この回答へのお礼

ありがとう

yhr2 さん、再びコメントをいただき恐縮です。

> いいえ。「期待値」は要するに「平均値」ですから、
> (中略)
> 「期待値」の意味を正しく理解できていますか?

期待値ですか、勉強し直して・・・というよりも習った記憶がない。
どうも私の理解を超えた世界のようです。

これまで見てきたWebサイトの記述でも、
「値=ある期待値+ある期待値」や「期待値=ある期待値-ある値」を見ると、
「期待値=ある期待値-ある期待値」じゃないのか??となってしまうぐらいなので。
「期待値」の勉強をしてみます。
ありがとうございました。

お礼日時:2019/05/22 19:35

No.2&3 です。

#1 の「お礼」に書かれたことについて。

>ご教示いただいた3つめのサイト
https://stats.biopapyrus.jp/stats/var.html
>は、質問1でも引用しましたが一番勉強になったサイトで、
>式の展開はフォローできたものの、最後の最後に
>「上式のように n-1 で割ることで、母分散 σ と等しくなる」
>で説明が終わってしまいました。

ああ、そうですね。
質問者さんの挙げられたリンク先までは見ていませんでした。

「説明が終わってしまった」とありますが、きちんと書いてあるのでは?

標本分散 s^2 の期待値が、「母分散:σ^2」(実際は未知)を使って
 E[s^2] = σ^2 - (1/n)σ^2 = [(n - 1)/n]σ^2
と書けるわけですよね?
つまり
 σ^2 = [n/(n - 1)]E[s^2]   ①

これが求めるものなのではないのですか?

>【質問1】
>「上式のように n-1 で割ることで、母分散 σ と等しくなる」と意味深な記述があります。

ちょっと文章の引用が「舌足らず」ですね。
「標本から分散を計算するとき、n で割るのではなく、上式のように n-1 で割ることで」
ですよね? つまり
「通常、分散を計算するときには『2乗偏差和』を n で割るが、不偏分散のときには n ではなく、上式のように n-1 で割る」
というのが全文ですね。
 E[s^2] = (1/n)Σ(xi - Xbar)^2
(サイズ n の標本 xi (i=1~n) と標本平均 Xbar から標本分散を求める式)
ですから、①は
 σ^2 = [1/(n - 1)]Σ(xi - Xbar)^2
となることを言っているだけで、何も「意味深」ではありませんが?

>【質問2】

「補足4」で挙げられているのは、「分散」の話ではなく「標準偏差」の話ですよね?
通常の「記述統計」では「標準偏差は分散の平方根」なのですが、「不偏分散」と「不偏標準偏差」との関係はそうなりませんよ、と言っているのです。
なので、「不偏分散」はよく使いますが、「不偏標準偏差」はほとんど使いませんね。
    • good
    • 0
この回答へのお礼

ありがとう

yhr2 さん、応答が大変遅くなりました。
ご教示いただいた内容を踏まえて頭を整理しました。
3つめのサイト https://stats.biopapyrus.jp/stats/var.html
に沿ってお話を進めさせていただきます。

補足5に添付した冒頭の式
s^2 = (1/n) * Σ(xi-X)^2 (式1)
これは理解できます。

そして補足6に添付した式4
E[s^2] = (1/n) * ΣE[(xi-μ)^2] - E[(X-μ)^2] (式4)
が導かれ、(式5)が正しいとすれば、
(式4)と(式5)から(式6)が得られ、最終的に
σ^2 = n/(n-1) * E[s^2]
となることは分かります。

そして、(式5)
σ^2 = E[(xi-μ)^2] (式5)
ですが、正しくは
σ^2 = (1/n) * ΣE[(xi-μ)^2] i=1~n (式5')
でしょうか。

「一方、n個のデータが平均μ、分散σ^2である母集団に属するので、
 このとき、分散は次のように計算することもできる。」
との記述がありますが、
σ^2 = (1/n) * ΣE[(xi-μ)^2] i=1~N (式5'':神のみぞ知る)
に代わり、(式5')を使うことがポイントと感じました。

n/(n-1)の"-1"、見た目は釈然としませんが、
式の展開から得られましたので、納得するしかないですね。
ありがとうございました。

お礼日時:2019/05/19 22:01

No.2です。

ちょっと訂正。

「定性的な説明」の最後の方に書いた

>つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために「自由度」が1つ減る、ということです

は間違いでした。

「つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために、サンプルサイズ n に対して「自由度」は1つ減った (n - 1) になる、ということです」

に訂正します。
    • good
    • 0
この回答へのお礼

助かりました

yhr2 さん、重ねてありがとうございます。

> 『「母集団の平均」に対する「標本平均」の不確定さ』のために、
> サンプルサイズ n に対して「自由度」は1つ減った (n - 1) になる
No.2 の回答と合わせて勉強しますが、定性的に表現するとこういうことなのですね。

お礼日時:2019/05/12 21:55

式1 はきちんとがんばって計算するとそうなるんじゃなかったかな.

    • good
    • 0
この回答へのお礼

ありがとう

Tacosan さん、早速に応答ありがとうございます。

お礼日時:2019/05/12 21:22

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!