分散の定義について

Question

確率論を勉強しております。
初歩的な質問で恐縮ですが、分散の定義について分からなくなってしまったため、こちらで質問させていただきたく存じます。

離散分布を考えたとき、確率変数Xの従う確率分布をf(x)、Ｘの期待値をμとすると、Ｘの分散V(X)は
V(X) = Σ(x-μ)^2*f(x) … ①
V(X) = (1/n)*Σ(x-μ)^2 … ②
の2通りの定義があるかと思うのですが、上記2つは同じものでしょうか。

①については計算式に確率分布f(x)が含まれていることから、確率分布が決まらない限り分散が決まらないのに対し、②については確率分布に関係なく値が決まる点から、①と②が同じものを表しているという説明がどうしても理解できません。
実際、具体的な分散を求める計算問題等では②を使って求めることが多い一方で、各種の証明（変数変換やモーメント母関数等）の際には分散の一般系として①を利用することが多く、ますますこんがらがっております。

有識者の方、ご指導のほど、どうぞ宜しくお願い致します。

Tacosan · Accepted Answer

「あなたが誤解している」のではなく「書いてあることが不適切であなたを誤解させてしまっている」ように見える.... さておき, 「分散」を求めるときに使っている「平均」が「母集団の平均」なのか「標本集団の平均」なのかに注意が必要だと思う.

「不偏性」のところでは「『標本平均』 (xバー) に対する標本の分散」からスタートして, 「『母平均』 (μ) に対する標本の分散」と「標本平均の (μ に対する) 『分散』 (←いい表現がうかばなかった)」を使う式に変形してる. で, (B)式最右辺第1項の期待値は
E((1/n) Σ (x_i-μ)^2) = (1/n) Σ E((x_i-μ)^2)
になるんだけど, この右辺の各期待値は (母平均 μ との偏差を使っているので) 定義から母分散 σ^2 になる. なので, ここから続けると
... = (1/n) Σ E((x_i-μ)^2) = (1/n) Σ σ^2 = (1/n) nσ^2 = σ^2
ってなる. ということで, 「なぜ①ではなくて②を使うのか」という点については「実はどちらも使っていない」ということになる.

あと念のため.

標本から「分散」を計算するときに「何の平均を使うのか」が重要で
・母平均を使えば「ふつう」に分散を計算すると不偏分散になる
・標本平均を使うと「ふつう」に計算した分散は不偏分散にならない
ってこと. 母平均が既知の場合にはどちらの計算もできるけど, どちらの平均を使うかによって結果が不偏推定量になるかならないかが決まる.

yhr2 · Answer

No.7 です。
失礼、この場合には「n」に意味があるので、無限大にしてはいけませんね。

お示しのサイトの式は、一般的な「母平均、母分散が分かっている母集団から n 個の標本を採ってきたときの分散の期待値」そのものですね。
ですから、これは「母集団の分散」に等しくなります。

真ん中の「(1/n)*Σ(xi - μ)^2」は不必要で、もし書くとすれば

E[(1/n)Σ(xi - μ)^2] = (1/n)Σ(Xi - μ)^2

となるのではないでしょうか。

yhr2 · Answer

No.5 です。
「期待値」の意味を取り違えているようですね。

サイコロを1回だけ振ったときに出る目の期待値は「3.5」ですが、実際に出る目は「１～６のいずれか」です。

期待値は、仮想的に n → ∞ としたときの値です。

Tacosan · Answer

「期待値」を付け忘れたんじゃないかな.

E((1/n) Σ (x_i-μ)^2) = (1/n) Σ E((x_i-μ)^2)

yhr2 · Answer

No.3 です。「お礼」に書かれたことについて。

＞「既知の母集団から採ってきたn個の標本」です。
＞この場合の分散はどちらになりますか？

「母集団の分散」と「標本の分散」になります。
標本の数が少なければ、ふつうは違う値になるでしょう。

kamiyasiro · Answer

私、降ります。すみません。

yhr2 · Answer

確率分布の分かっている母集団の分散は①で（その場合には②式でいうところの「n」は存在しない）、
ｎ個の標本の分散は②で求める
ということかと思います。

「既知の母集団」とか「未知の母集団から採ってきたn個の標本」とかを考えれば、どちらの式を使うかは決まりますよね？

母集団が未知であれば「確率変数Xの従う確率分布をf(x)」も未知で①は使えませんが、その場合にも「n 個の標本」があればその分散は求められます。
ただし、それはあくまで「n 個の標本の分散」であって、それから母集団の分散をどのように推定するかは別な話になります。

kamiyasiro · Answer

①式ですが、

『離散分布を考えたとき、確率変数Xの従う確率分布をf(x)、Ｘの期待値をμとすると、Ｘの分散V(X)は
V(X) = Σ(x-μ)^2*f(x) … ①』

は

V(X) = Σ(X-μ)^2*f(x)

であり、()^2内のxは大文字Xの間違いですよね。
Xは観測値ではなく横軸の値です。この式は観測値ｘが用いられていません。

このように具体的な観測値が無い場合でも計算したい、というか観測値は特殊ケースに過ぎないから、観測値を用いない蓋然性の高い状態で証明したいときに用いるのが①だと思います。

f(x)が連続関数のときは積分で求め、それを「２次の中心積率」と言いますが、f(x)が離散関数（確率質量関数）なので、積分が出来ずサンメイションに置き換えていますね。
確率は密度関数の面積なんですが、離散値は面積が無いので、ある点の「質量」と考えるのですね。

なお、本来は、f(x)もf(X)のように大文字にすべきですが、ご質問者さんの定義に従いました。

Tacosan · Answer

当然, 上.

「具体的な分散を求める計算問題等では②を使って求めることが『多い』」と書いているってことは, 自分でも「いつでもどこでも②を使っているわけではない」と気付いている... んだよね? だとしたら, そういう場合にはどう計算しているんだろう.

分散の定義について

No.7 です。

No.5 です。

「期待値」を付け忘れたんじゃないかな.

No.3 です。

私、降ります。

確率分布の分かっている母集団の分散は①で（その場合には②式でいうところの「n」は存在しない）、

①式ですが、

当然, 上.

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング