
確率論を勉強しております。
初歩的な質問で恐縮ですが、分散の定義について分からなくなってしまったため、こちらで質問させていただきたく存じます。
離散分布を考えたとき、確率変数Xの従う確率分布をf(x)、Xの期待値をμとすると、Xの分散V(X)は
V(X) = Σ(x-μ)^2*f(x) … ①
V(X) = (1/n)*Σ(x-μ)^2 … ②
の2通りの定義があるかと思うのですが、上記2つは同じものでしょうか。
①については計算式に確率分布f(x)が含まれていることから、確率分布が決まらない限り分散が決まらないのに対し、②については確率分布に関係なく値が決まる点から、①と②が同じものを表しているという説明がどうしても理解できません。
実際、具体的な分散を求める計算問題等では②を使って求めることが多い一方で、各種の証明(変数変換やモーメント母関数等)の際には分散の一般系として①を利用することが多く、ますますこんがらがっております。
有識者の方、ご指導のほど、どうぞ宜しくお願い致します。
No.9ベストアンサー
- 回答日時:
「あなたが誤解している」のではなく「書いてあることが不適切であなたを誤解させてしまっている」ように見える.... さておき, 「分散」を求めるときに使っている「平均」が「母集団の平均」なのか「標本集団の平均」なのかに注意が必要だと思う.
「不偏性」のところでは「『標本平均』 (xバー) に対する標本の分散」からスタートして, 「『母平均』 (μ) に対する標本の分散」と「標本平均の (μ に対する) 『分散』 (←いい表現がうかばなかった)」を使う式に変形してる. で, (B)式最右辺第1項の期待値は
E((1/n) Σ (x_i-μ)^2) = (1/n) Σ E((x_i-μ)^2)
になるんだけど, この右辺の各期待値は (母平均 μ との偏差を使っているので) 定義から母分散 σ^2 になる. なので, ここから続けると
... = (1/n) Σ E((x_i-μ)^2) = (1/n) Σ σ^2 = (1/n) nσ^2 = σ^2
ってなる. ということで, 「なぜ①ではなくて②を使うのか」という点については「実はどちらも使っていない」ということになる.
あと念のため.
標本から「分散」を計算するときに「何の平均を使うのか」が重要で
・母平均を使えば「ふつう」に分散を計算すると不偏分散になる
・標本平均を使うと「ふつう」に計算した分散は不偏分散にならない
ってこと. 母平均が既知の場合にはどちらの計算もできるけど, どちらの平均を使うかによって結果が不偏推定量になるかならないかが決まる.
あっっ!!
なるほど!!!
確かに、よく見たら、当該式のカッコの中の(x-μ)のμが、仰る通りに標本平均ではなく母平均になっています!完全にここを見落としておりました!
ようやくすべて理解できました!
ここまでお付き合いいただきまして、誠にありがとうございました!
No.8
- 回答日時:
No.7 です。
失礼、この場合には「n」に意味があるので、無限大にしてはいけませんね。
お示しのサイトの式は、一般的な「母平均、母分散が分かっている母集団から n 個の標本を採ってきたときの分散の期待値」そのものですね。
ですから、これは「母集団の分散」に等しくなります。
真ん中の「(1/n)*Σ(xi - μ)^2」は不必要で、もし書くとすれば
E[(1/n)Σ(xi - μ)^2] = (1/n)Σ(Xi - μ)^2
となるのではないでしょうか。
何度も質問にご回答いただきましてありがとうございます。
おかげさまで、(1/n)*Σ(xi - μ)^2が不要という点は理解できました。
もう少しで証明が理解できそうなのですが、最後の疑問として、ご指摘いただいた「母平均、母分散が分かっている母集団から n 個の標本を採ってきたときの分散の期待値」が「母集団の分散」と等しくなるという点について、もう少しだけ教えて下さい。
私の理解では、「母平均、母分散が分かっている母集団から n 個の標本を採ってきたときの分散の期待値」は母分散と一致しないから、不偏分散という概念が登場したと思っていたのですが、何か大きな勘違いをしておりますでしょうか。
ご指摘のほど、よろしくお願いいたします。
No.7
- 回答日時:
No.5 です。
「期待値」の意味を取り違えているようですね。
サイコロを1回だけ振ったときに出る目の期待値は「3.5」ですが、実際に出る目は「1~6のいずれか」です。
期待値は、仮想的に n → ∞ としたときの値です。
No.6
- 回答日時:
「期待値」を付け忘れたんじゃないかな.
E((1/n) Σ (x_i-μ)^2) = (1/n) Σ E((x_i-μ)^2)
いつも簡潔に本質をご指摘いただきありがとうございます。
私の誤解の根本原因は、ご指摘のとおり、「期待値」の存在を忘れていたことでした。
つまり、与式の左辺は、分散そのものではなく、標本分散の「期待値」だったということでした。
しかし、そうしますと次なる疑問は、同じ式について、左辺の「標本から計算した分散の期待値」が、なぜ右辺の母分散になるのかという点です。むしろ、それが一致しないから、不偏分散なる概念を導入し、まさにそれを証明しようとしているのがリンク先のページだという理解でした。
なにか大きな勘違いをしておりますでしょうか。
何卒宜しくお願い致します。
No.5
- 回答日時:
No.3 です。
「お礼」に書かれたことについて。>「既知の母集団から採ってきたn個の標本」です。
>この場合の分散はどちらになりますか?
「母集団の分散」と「標本の分散」になります。
標本の数が少なければ、ふつうは違う値になるでしょう。
重ね重ねご回答ありがとうございます。
①が母集団の分散(母分散)、②が標本分散ということでしょうか。
私も当初はそのように理解しておりましたが、そう考えるとどうしても理解できない証明があります。
また補足に書き込みを致しましたので、お手数ですが、お手すきの時間にご覧いただけますでしょうか。
No.3
- 回答日時:
確率分布の分かっている母集団の分散は①で(その場合には②式でいうところの「n」は存在しない)、
n個の標本の分散は②で求める
ということかと思います。
「既知の母集団」とか「未知の母集団から採ってきたn個の標本」とかを考えれば、どちらの式を使うかは決まりますよね?
母集団が未知であれば「確率変数Xの従う確率分布をf(x)」も未知で①は使えませんが、その場合にも「n 個の標本」があればその分散は求められます。
ただし、それはあくまで「n 個の標本の分散」であって、それから母集団の分散をどのように推定するかは別な話になります。
ご回答ありがとうございます。
「既知の母集団」とか「未知の母集団から採ってきたn個の標本」とかを考えれば、どちらの式を使うかは決まりますよね?
とコメントしていただきましたが、これにつきまして、もしお時間がおありでしたら補足の例をご覧いただけますでしょうか。
「既知の母集団から採ってきたn個の標本」です。
この場合の分散はどちらになりますか?
宜しくお願い致します。
No.2
- 回答日時:
①式ですが、
『離散分布を考えたとき、確率変数Xの従う確率分布をf(x)、Xの期待値をμとすると、Xの分散V(X)は
V(X) = Σ(x-μ)^2*f(x) … ①』
は
V(X) = Σ(X-μ)^2*f(x)
であり、()^2内のxは大文字Xの間違いですよね。
Xは観測値ではなく横軸の値です。この式は観測値xが用いられていません。
このように具体的な観測値が無い場合でも計算したい、というか観測値は特殊ケースに過ぎないから、観測値を用いない蓋然性の高い状態で証明したいときに用いるのが①だと思います。
f(x)が連続関数のときは積分で求め、それを「2次の中心積率」と言いますが、f(x)が離散関数(確率質量関数)なので、積分が出来ずサンメイションに置き換えていますね。
確率は密度関数の面積なんですが、離散値は面積が無いので、ある点の「質量」と考えるのですね。
なお、本来は、f(x)もf(X)のように大文字にすべきですが、ご質問者さんの定義に従いました。
ご回答ありがとうございます。
観測値を用いない蓋然性の高い状態で証明したいときに用いるのが①
とのご指摘をいただきましたが、ということは、②は①の近似ということでしょうか。
①式を式変形して②式を導くことはできますでしょうか。
No.1
- 回答日時:
当然, 上.
「具体的な分散を求める計算問題等では②を使って求めることが『多い』」と書いているってことは, 自分でも「いつでもどこでも②を使っているわけではない」と気付いている... んだよね? だとしたら, そういう場合にはどう計算しているんだろう.
ご回答ありがとうございます。
はい、いつでもどこでも②を使っているわけではないので、逆に、いつ①を使うべきなのか、いつ②を使うべきなのかが判断できずにおります。
もしお時間がありましたら補足をご覧いただけますと幸いです。
どうぞ宜しくお願い致します。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 基礎的な統計学の問題の解答をご教示ください。 4 2021/10/28 22:17
- 統計学 [至急] 大学の統計学の問題なのですが,よろしければ模範解答を教えていただきたいです。確率分布の中で 2 2021/11/30 15:07
- 統計学 統計学の質問です。 n=16のi.i.d.データを計算したところ,標本平均は400,標本分散は250 1 2021/12/26 14:42
- 数学 以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ 3 2022/12/02 19:13
- 統計学 統計学の問題です。 どなたか分かる方いらっしゃいましたら解いて頂きたいです。よろしくお願い致します。 2 2021/12/14 17:07
- 統計学 確率の問題です。 7 2022/05/07 01:08
- 統計学 統計学の質問です。 どなたか分かる方教えて頂けたら幸いです。 共通]下記の仮説の真偽を判断するため, 2 2021/12/21 18:13
- 統計学 確率の問題を教えて頂けませんか? 3 2021/12/04 20:31
- 数学 数学の問題です。 問1: ある(人数の非常に多い)集団から無作為に6名を選んで身長を測ったところ、そ 2 2022/12/09 12:03
- 統計学 t検定と分散分析に関しての質問です。 比率に関する統計をt検定や分散分析を用いてもいいのでしょうか? 3 2022/02/01 18:58
今、見られている記事はコレ!
-
弁護士が語る「合法と違法を分けるオンラインカジノのシンプルな線引き」
「お金を賭けたら違法です」ーーこう答えたのは富士見坂法律事務所の井上義之弁護士。オンラインカジノが違法となるかどうかの基準は、このように非常にシンプルである。しかし2025年にはいって、違法賭博事件が相次...
-
釣りと密漁の違いは?知らなかったでは済まされない?事前にできることは?
知らなかったでは済まされないのが法律の世界であるが、全てを知ってから何かをするには少々手間がかかるし、最悪始めることすらできずに終わってしまうこともあり得る。教えてgooでも「釣りと密漁の境目はどこです...
-
カスハラとクレームの違いは?カスハラの法的責任は?企業がとるべき対応は?
東京都が、客からの迷惑行為などを称した「カスタマーハラスメント」、いわゆる「カスハラ」の防止を目的とした条例を、全国で初めて成立させた。条例に罰則はなく、2025年4月1日から施行される。 この動きは自治体...
-
なぜ批判コメントをするの?その心理と向き合い方をカウンセラーにきいた!
今や生活に必要不可欠となったインターネット。手軽に情報を得られるだけでなく、ネットを介したコミュニケーションも一般的となった。それと同時に顕在化しているのが、他者に対する辛らつな意見だ。ネットニュース...
-
大麻の使用罪がなかった理由や法改正での変更点、他国との違いを弁護士が解説
ドイツで2024年4月に大麻が合法化され、その2ヶ月後にサッカーEURO2024が行われた。その際、ドイツ警察は大会運営における治安維持の一つの方針として「アルコールを飲んでいるグループと、大麻を吸っているグループ...
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
重荷分散の為に敷く板には木製...
-
宮崎県の市について
-
2つの正規分布を合成したらど...
-
数学(ほぼ統計)について、教...
-
K回同期加算すると、雑音が1/K...
-
統計データーの簡素なロギング
-
至急!!エクセルで度数分布表...
-
統計の分散のイメージ
-
統計学、共分散・相関係数です
-
数学の答えと解き方を教えてく...
-
分散の定義について
-
以下の数学の問題を教えてくだ...
-
X/Yの確率分布(コーシー分布で...
-
分散が大きいとデータの偏りが...
-
正規分布の加法性について
-
質量がばらついているサンプル...
-
長期的に見れば予測は当たりや...
-
ランダムに答えた場合の正答率
-
金融資産1億円以上持っている...
-
統計学の問題です。 ある駅の売...
おすすめ情報
皆様ご回答ありがとうございます。
質問の仕方が悪く、うまく言いたいことを伝えられていないような気がしますので、例を交えて書かせていただきます。
問題)さいころ(目の出やすさは同様に確か)を3回振ったところ、1,2,6が出た。この時、分散を求めよ。
①Σ(x-μ)^2*f(x) = 1/6 * (1-3.5)^2 + 1/6 * (2-3.5)^2 + … + 1/6 * (6-3.5)^2 = 2.91
②(1/n)*Σ(x-μ)^2 = ((1-3)^2 + (2-3)^2 + (6-3)^2)/3 = 4.66
どちらも分散ですが、どちらで計算するかによって結果が異なります。
腑に落ちないのが、計算結果が異なるのにともに分散という名前で呼び、同一の概念として扱っている点が理解できずにいます。同じ「ような」計算をしているのは確かなのですが、厳密に同じ計算ではなく、結果として(続く)
違う値を導いています。
統計の参考書を読んでいると、各種の証明や計算問題に①を使う場合と②を使う場合があり、なぜこの場合には①ではなく②を使うのか、(或いは反対に、なぜこの場合には②ではなく①を使うのか)といったことが判断できずに、証明自体が理解できないことがあります。
なお、蛇足となりますが、上記の例において、
③Σ(x-μ)*f(x) = 3.5
④(1/n)*Σ(x-μ) = 3
はそれぞれ、③を期待値、④を平均として別物だと区別して理解しております。
どうぞ宜しくお願い致します。
③④式間違えました。
③Σx*f(x) = 3.5
④(1/n)*Σx = 3
でした。
すみません。
より具体的に、どの証明のどの部分が理解できないのかをお示しさせていただきます。
https://bellcurve.jp/statistics/course/14987.html
こちらのページの
ここで、期待値の性質からE(1/nΣ(X - μ)^2)の部分は次のように変形ができます。
E(1/nΣ(X - μ)^2) = (1/n)*Σ(x-μ)^2 = σ^2
この部分では、②を使って、与式が母分散σ^2となることを導出しておりますが、なぜ①ではなくて②を使うのか、どうしても理解できません。
どうぞよろしくお願い致します。