
長文の質問となること、お許しください。
表題の件、基本的なこととして、
『標本分散s^2は、n個の標本の分散であり、
不偏分散σ^2は、n個の標本から推定されるN個の母集団の分散の期待値であり、
母集団分散は、N個の母集団の真の分散(神のみぞ知る)である。
ただし、しばしば、不偏分散をもって母集団分散という』
と理解しているつもりですが、(n-1) という因子について長年悶々としており、
今さらなのですが有識者の方々にお尋ねさせていただきます。
なお、引用資料ごとに用語の使い方・表記が異なるので、
ここでは以下のように統一して表記します。
標本数:n
母集団数:N
標本平均:X(xバーと記述したいがフォント上 表現ができないので)
母集団平均:μ
標本分散:s^2(sの2乗がフォント上 表現ができないので)
不偏分散:σ^2(σの2乗がフォント上 表現ができないので)
標本標準偏差:s
不偏標準偏差:σ
具体的なお尋ね事項を2つ、以下に列記します。
【質問1】
「Wikipedia 標準偏差」(https://ja.wikipedia.org/wiki/標準偏差)の記述を参考にすると
(補足1にScreen Capture 1 あり。u^2 は μ^2 と読み替えてください)、
E[s^2] = ((n-1)/n) * (σ^2) (式1)
となることが示される、とありますが、(n-1)因子はどこから来るのでしょうか。
統計学上の経験則なのでしょうか。 それとも統計学的な算術で得られる近似式なのでしょうか?
等号で記述されていますので、近似式ではないですよね。
「標本分散と不偏分散の関係について」
(https://stats.biopapyrus.jp/stats/var.html)においても
(補足2にScreen Capture 2 あり。Xバーは xバーを意味する X と読み替えてください)、
「よって、」の直前の式が同じことを表しています。さらに、
「上式のように n-1 で割ることで、母分散 σ と等しくなる」と意味深な記述があります。
さらにさらに、「母分散と不偏分散」(https://staff.aist.go.jp/t.ihara/dispersion.html)には
(補足3にScreen Capture 3 あり。m は n と読み替えてください)、
「標本の大きさが m なのに不偏分散の自由度が (m-1) であるのは、
不偏分散を求める式の中の m 個の観測値(xi)がお互いに完全には独立ではなく、
どれか一つの観測値は他の (n-1) 個の独立な観測値と標本平均(X)から
求められるからです。」
とあります。
いずれにおいても、説明が端折られているようで理解できません。よろしくお願いします。
【質問2】
質問1ともかぶるのですが、同じ「Wikipedia 標準偏差」の最後の方に、
σ^2 ≒ n/(n-1.5) * s^2 (式2)
と等価な式(標準偏差Dはσと表記し直し、両辺とも2乗して分散の表現式に変換、
~~は≒と表記)と思しき式2があります。
s^2 = ((n-1)/n) * (σ^2) (式1から期待値を示すE[ ]を省略)
s^2 ≒ ((n-1.5)/n) * σ^2 (式2の両辺入替えおよび変形)
はどういう関係にあるのでしょうか。
質問1で引用のWikipediaによれば、N>>n であろうが、N>>>>n であろうが、
σ^2 = n/(n-1) * s^2 (式1)
が導かれていると思われる一方で、同じWikipedia 内で、N>>>>nの場合には、
s^2 ≒ ((n-1.5)/n) * σ^2
だという訳です。
以上、長文となりましたが、ご教示のほどよろしくお願いいたします。
No.2ベストアンサー
- 回答日時:
最初に書かれている通り、
>母集団分散は、N個の母集団の真の分散(神のみぞ知る)である。
であって、「母集団の分散」は不明です。さらに言えば「母集団の平均」だって「神のみぞ知る」です。
それを限られた「標本」から推定するのが「推測統計」ということです。
標本をたくさんとって平均すれば、何となく「母集団の平均」に近づきそうだということは、容易に想像できますよね。でも、どうしてそうなるのか、きちんと説明できますか?
標本のサイズが小さいときには、「母集団の平均」に対する「標本平均」の誤差が大きいです。標本サイズを大きくすれば、「母集団の平均」に対する「標本平均」の誤差は小さくなります。つまり『「母集団の平均」に対する「標本平均」の誤差』は統計的なものです。
次に、標本を採って「標本の分散」をとれば、「母集団の分散」に近づきますか? 「標本の分散」を計算するためには「標本の平均」を使わないといけませんが、その「標本の平均」は上に書いたように「母集団の平均」に近いとはいえ「母集団の平均」ではなく、「母集団の平均」に対して「統計的な誤差」を持っています。
この『「母集団の平均」に対する「標本平均」の不確定さ』に起因して、「母集団の分散」を推定するときに、サンプルサイズを n として、通常「サンプルサイズ n で割る」ところを「『「母集団の平均」に対する「標本平均」の不確定さ』のため (n - 1) で割る」ということをやっているのです。その分
母集団の分散 = 標本分散
ではなく、それを「少し大きく = n/(n - 1)」したものを「母集団の分散の推定値」としているのです。
つまり、「n - 1」の「 -1」は、『「母集団の平均」に対する「標本平均」の不確定さ』に起因する、と考えればよいのです。
(ただし、以上の説明は正確ではありません。あくまで「イメージ」を理解するための説明です。でも、この後しばしば出てくる「自由度」のイメージをつかむ上で、このイメージが必要になります。つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために「自由度」が1つ減る、ということです)
この「定性的な説明」は、こんなサイトで確認してください。
https://mathtrain.jp/huhenbunsan
でも、キチンと計算してもそうなることが確認できます。ネット上で探せば、「きちんとした計算」を示しているサイトは結構ありますよ。
http://kosugitti.sakura.ne.jp/wp/wp-content/uplo …
https://stats.biopapyrus.jp/stats/var.html
ただ、「計算」だけトレースしても、「へ~」というだけで「狐につまされたような」感覚が残ると思いますので、前半の「イメージ」を持っておくとよいと思います。
yhr2 さん、早速に応答ありがとうございます。
ご教示いただいた3つめのサイト
https://stats.biopapyrus.jp/stats/var.html
は、質問1でも引用しましたが一番勉強になったサイトで、
式の展開はフォローできたものの、最後の最後に
「上式のように n-1 で割ることで、母分散 σ と等しくなる」
で説明が終わってしまいました。
そして、さらなるネット検索でこの疑問を解こうと思ったものの解決できなかったため、
こちらの教えて!goo で質問させていただいた次第ですが、
https://mathtrain.jp/huhenbunsan
http://kosugitti.sakura.ne.jp/wp/wp-content/uplo …
というサイトがあったのですね。
> でも、キチンと計算してもそうなることが確認できます。
解説していただいた内容および上記サイトの内容をチェックしてみます。
取り急ぎお礼まで。
No.5
- 回答日時:
No.4です。
「お礼」に書かれたことについて。>補足5に添付した冒頭の式
>s^2 = (1/n) * Σ(xi-X)^2 (式1)
>これは理解できます。
はい。サイズ n のサンプルの分散です。
>そして、(式5)
>σ^2 = E[(xi-μ)^2] (式5)
>ですが、正しくは
>σ^2 = (1/n) * ΣE[(xi-μ)^2] i=1~n (式5')
>でしょうか。
いいえ。「期待値」は要するに「平均値」ですから、
E[(xi-μ)^2] = {(x1 - μ)^2 + (x2 - μ)^2 + ・・・ + (xn - μ)^2} /n = (1/n){Σ(xi - μ)^2 }
です。なので
ΣE[(xi-μ)^2] = nE[(xi-μ)^2]
ですよ?
「期待値」の意味を正しく理解できていますか?
yhr2 さん、再びコメントをいただき恐縮です。
> いいえ。「期待値」は要するに「平均値」ですから、
> (中略)
> 「期待値」の意味を正しく理解できていますか?
期待値ですか、勉強し直して・・・というよりも習った記憶がない。
どうも私の理解を超えた世界のようです。
これまで見てきたWebサイトの記述でも、
「値=ある期待値+ある期待値」や「期待値=ある期待値-ある値」を見ると、
「期待値=ある期待値-ある期待値」じゃないのか??となってしまうぐらいなので。
「期待値」の勉強をしてみます。
ありがとうございました。
No.4
- 回答日時:
No.2&3 です。
#1 の「お礼」に書かれたことについて。>ご教示いただいた3つめのサイト
>https://stats.biopapyrus.jp/stats/var.html
>は、質問1でも引用しましたが一番勉強になったサイトで、
>式の展開はフォローできたものの、最後の最後に
>「上式のように n-1 で割ることで、母分散 σ と等しくなる」
>で説明が終わってしまいました。
ああ、そうですね。
質問者さんの挙げられたリンク先までは見ていませんでした。
「説明が終わってしまった」とありますが、きちんと書いてあるのでは?
標本分散 s^2 の期待値が、「母分散:σ^2」(実際は未知)を使って
E[s^2] = σ^2 - (1/n)σ^2 = [(n - 1)/n]σ^2
と書けるわけですよね?
つまり
σ^2 = [n/(n - 1)]E[s^2] ①
これが求めるものなのではないのですか?
>【質問1】
>「上式のように n-1 で割ることで、母分散 σ と等しくなる」と意味深な記述があります。
ちょっと文章の引用が「舌足らず」ですね。
「標本から分散を計算するとき、n で割るのではなく、上式のように n-1 で割ることで」
ですよね? つまり
「通常、分散を計算するときには『2乗偏差和』を n で割るが、不偏分散のときには n ではなく、上式のように n-1 で割る」
というのが全文ですね。
E[s^2] = (1/n)Σ(xi - Xbar)^2
(サイズ n の標本 xi (i=1~n) と標本平均 Xbar から標本分散を求める式)
ですから、①は
σ^2 = [1/(n - 1)]Σ(xi - Xbar)^2
となることを言っているだけで、何も「意味深」ではありませんが?
>【質問2】
「補足4」で挙げられているのは、「分散」の話ではなく「標準偏差」の話ですよね?
通常の「記述統計」では「標準偏差は分散の平方根」なのですが、「不偏分散」と「不偏標準偏差」との関係はそうなりませんよ、と言っているのです。
なので、「不偏分散」はよく使いますが、「不偏標準偏差」はほとんど使いませんね。
yhr2 さん、応答が大変遅くなりました。
ご教示いただいた内容を踏まえて頭を整理しました。
3つめのサイト https://stats.biopapyrus.jp/stats/var.html
に沿ってお話を進めさせていただきます。
補足5に添付した冒頭の式
s^2 = (1/n) * Σ(xi-X)^2 (式1)
これは理解できます。
そして補足6に添付した式4
E[s^2] = (1/n) * ΣE[(xi-μ)^2] - E[(X-μ)^2] (式4)
が導かれ、(式5)が正しいとすれば、
(式4)と(式5)から(式6)が得られ、最終的に
σ^2 = n/(n-1) * E[s^2]
となることは分かります。
そして、(式5)
σ^2 = E[(xi-μ)^2] (式5)
ですが、正しくは
σ^2 = (1/n) * ΣE[(xi-μ)^2] i=1~n (式5')
でしょうか。
「一方、n個のデータが平均μ、分散σ^2である母集団に属するので、
このとき、分散は次のように計算することもできる。」
との記述がありますが、
σ^2 = (1/n) * ΣE[(xi-μ)^2] i=1~N (式5'':神のみぞ知る)
に代わり、(式5')を使うことがポイントと感じました。
n/(n-1)の"-1"、見た目は釈然としませんが、
式の展開から得られましたので、納得するしかないですね。
ありがとうございました。
No.3
- 回答日時:
No.2です。
ちょっと訂正。「定性的な説明」の最後の方に書いた
>つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために「自由度」が1つ減る、ということです
は間違いでした。
「つまり『「母集団の平均」に対する「標本平均」の不確定さ』のために、サンプルサイズ n に対して「自由度」は1つ減った (n - 1) になる、ということです」
に訂正します。
yhr2 さん、重ねてありがとうございます。
> 『「母集団の平均」に対する「標本平均」の不確定さ』のために、
> サンプルサイズ n に対して「自由度」は1つ減った (n - 1) になる
No.2 の回答と合わせて勉強しますが、定性的に表現するとこういうことなのですね。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
検量線の決定係数について
-
卒業論文のアンケートの数について
-
誤差曲線
-
巡回セールスマン問題の類似問題
-
片対数グラフで…
-
関数における平行移動の式y-q=f...
-
検定統計量の値がマイナス
-
心理学の統計について
-
死傷者数と死者数の違いって何...
-
IGORの使い方
-
(統計学)有意傾向がある場合...
-
高周波回路で、東芝の2SC1815の...
-
最小二乗法を反比例の式を元に...
-
中央値について
-
線形なグラフとはひとくちに言...
-
統計 RSD%について教えて下さい。
-
cos2/5πなど有名角じゃないとき...
-
第43回機械製図検定の解答を持...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
下の対数表示のグラフから低域...
-
検量線の決定係数について
-
エクセルのグラフから半値幅を...
-
線形なグラフとはひとくちに言...
-
最小二乗法を反比例の式を元に...
-
【統計】有意に「高い」?「低...
-
死傷者数と死者数の違いって何...
-
曲面z=log(x^2+y^2)のグラフの...
-
片対数グラフで…
-
物理学実験のグラフの描き方に...
-
パイロットサンプルって何ですか?
-
統計について
-
高校 数学 aを実数の定数とする...
-
数3の問題です y=x+cosx 0≦x≦2π...
-
理科のグラフで、直線と曲線の...
-
心理学の統計について
-
データ点を線で結ぶ場合と結ば...
-
正規分布でない対象にウェルチ...
おすすめ情報
【補足1】
「Wikipedia 標準偏差」(https://ja.wikipedia.org/wiki/標準偏差)より Screen Capture 1
【補足2】
「標本分散と不偏分散の関係について」(https://stats.biopapyrus.jp/stats/var.html)より
Screen Capture 2
【補足3】
「母分散と不偏分散」(https://staff.aist.go.jp/t.ihara/dispersion.html)より Screen Capture 3
(ν^2 は s^2 と読み替えてください)
【補足4】
「Wikipedia 標準偏差」(https://ja.wikipedia.org/wiki/標準偏差)より Screen Capture 4
【質問1】の第3段落で誤記がありました。
「(補足3にScreen Capture 3 あり。m は n と読み替えてください)」としていながら、
m と記述してしまった所が3か所ありました。
正しくは以下のとおりです。
さらにさらに、「母分散と不偏分散」(https://staff.aist.go.jp/t.ihara/dispersion.html)には
(補足3にScreen Capture 3 あり。m は n と読み替えてください)、
「標本の大きさが n なのに不偏分散の自由度が (n-1) であるのは、
不偏分散を求める式の中の n 個の観測値(xi)がお互いに完全には独立ではなく、
どれか一つの観測値は他の (n-1) 個の独立な観測値と標本平均(X)から
求められるからです。」
とあります。
【補足5】
「標本分散と不偏分散の関係について」(https://stats.biopapyrus.jp/stats/var.html)より
Screen Capture 5
【補足6】
「標本分散と不偏分散の関係について」(https://stats.biopapyrus.jp/stats/var.html)より
Screen Capture 6