統合による影響を考えています。
以下のような問題を考えているのですが、
詳しい解説をよろしくお願い申し上げます。
ある変数に対する分散が大きい分布を、分布Aとします(分散をσ_A)。
分散が小さい分布を分布Bとします(分散をσ_B)。
これら二つの分布が合わさってできあがった分布を分布Cとします
(分散をσ_C)。
この場合、
できあがった分布Cの分散(σ_C)を、
σ_Aとσ_Bで表したいのですが、どうしたらよいでしょうか。
分布規模が同じ場合と、
規模が異なる場合(分布Aの方が分布Bより大きい)の二つ
を求めたいのですが、どうしたらよいでしょうか。
このような問題を考える際、
どのような本を勉強すればよいでしょうか。
分散を詳しく解説してある本もご紹介頂けますと、
重ねてありがたく存じます。
よろしくお願い申し上げます。
No.4ベストアンサー
- 回答日時:
サンプルの集合Aについて、サンプル数をN_A、平均をm_A、サンプルの集合Aに属するサンプルをa[j](j=1,2,...,N_A)と書くことにして、
m_A×N_A = Σ[a[j]] (Σ[ ]はj=1,2,...,N_Aについての総和)
であるとしましょう。ご質問では「分散」の意味がちょっと曖昧ですが、サンプルの分散のことであると解釈し
σ_A×N_A = Σ[(a[j]-m_A)^2] (Σ[ ]はj=1,2,...,N_Aについての総和。なお「^2」は二乗のこと)
であるとしましょう。
サンプルの集合Bについても同様です。
まず、サンプルの集合AとBの合併集合Cについて、平均をm_Cと書くと
m_C×(N_A+N_B)=Σ[(a[j]]+Σ[b[j]](最初のΣ[ ]はj=1,2,...,N_Aについての総和、二つ目のΣ[ ]はj=1,2,...,N_Bについての総和)
ところが
Σ[a[j]]=m_A×N_A(Σ[ ]はj=1,2,...,N_Aについての総和)
Σ[b[j]]=m_B×N_B(Σ[ ]はj=1,2,...,N_Bについての総和)
なのだから
m_C×(N_A+N_B)=m_A×N_A + m_B×N_B
なので
m_C= (N_A×m_A + N_B×m_B)/(N_A+N_B)
です。つまり、m_A, m_B, N_A, N_Bだけからm_Cが計算できました。
分散についてはちょっとやっかいです。
(a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2
= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A)
だから、
σ_A×N_A = Σ[(a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A)]
= Σ[(a[j]-m_C)^2]+2Σ[a[j]×(m_C-m_A)]-Σ[m_A×(m_C-m_A)]
= Σ[(a[j]-m_C)^2]+2(m_C-m_A)×Σ[a[j]]-[m_A×(m_C-m_A)]×N_A
(この計算では、
pがjによらない定数であるとき、Σ[p×a[j]]=pΣ[a[j]]であることと
pがjによらない定数であるとき、Σ[p]=p×Σ[1]=p×N_Aであること
を使っています。)
Σ[a[j]]=m_A×N_A
なのだから
σ_A×N_A =Σ[(a[j]-m_C)^2]+2(m_C-m_A)×m_A×N_A-[m_A×(m_C-m_A)]×N_A
=Σ[(a[j]-m_C)^2]+(m_C-m_A)×m_A×N_A
従って、
Σ[(a[j]-m_C)^2]=σ_A×N_A + (m_A-m_C)×m_A×N_A(Σ[ ]はj=1,2,...,N_Aについての総和)
です。
同様にして、
Σ[(b[j]-m_C)^2]=σ_B×N_B + (m_B-m_C)×m_B×N_B(Σ[ ]はj=1,2,...,N_Bについての総和)
が言えますから、
σ_C×(N_A+N_B)=Σ[(a[j]-m_C)^2]+Σ[(b[j]-m_C)^2](最初のΣ[ ]はj=1,2,...,N_Aについての総和、二つ目のΣ[ ]はj=1,2,...,N_Bについての総和)
=σ_A×N_A + σ_B×N_B + (m_A-m_C)×m_A×N_A + (m_B-m_C)×m_B×N_B
なので集合Cの分散σ_Cは
σ_C = (σ_A×N_A + σ_B×N_B + (m_A-m_C)×m_A×N_A + (m_B-m_C)×m_B×N_B)/(N_A+N_B)
です。つまり、σ_A, σ_B, m_A, m_B, N_A, N_Bだけからm_Cが計算できました。
この回答への補足
とても丁寧なご回答をいただき、ありがとうございます。
なるほどと思っております。
ただ、
> 分散についてはちょっとやっかいです。
>(a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2
>= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_A×(m_C-m_A)
とあるのですが、
この部分は、
(a[j]-m_A)^2 = ((a[j]-m_C) + (m_C-m_A))^2
= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-2m_C×(m_C-m_A)+(m_C-m_A)^2
= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-2m_C^2+2m_A・m_C+m_C^2-2m_A・m_C+m_A^2
= (a[j]-m_C)^2+2a[j]×(m_C-m_A)-m_C^2+m_A^2
と計算したのですが、どうでしょうか。
再度、目を通していただけますとありがたく存じます。
よろしくお願い申し上げます。
No.3
- 回答日時:
あ~, なんとなくわかった. たぶん #2 は勘違いしてます.
「2つの集団があって, それぞれの集団内では平均や分散が分かっていると仮定して, 全体をまとめた 1つの集団に対して分散がどうなるか」ということですね. だとしたら, 双方の平均 (の差) も影響してきますよ.
例えば「集団A は 90個の標本からなりその値はすべて 0」「集団B は 10個の標本からなりその値はすべて 1」という状況を考えてみます. それぞれの集団内では分散は 0 になりますが, これらをまとめた (100個の標本からなる) 集団C の分散は 0 にはなりません (0.3 かな?).
ということで, 挙げられた値のみからでは求まりません. 地道に偏差の 2乗和を求めに行くことになると思います.
No.2
- 回答日時:
確率変数 Z = X+Y においてそれぞれの分散を Var(Z) などと表すことにします.
このとき, X と Y が独立なら Var(Z) = Var(X) + Var(Y) です. 独立でないときには X と Y の共分散 (もしくは同じことだが相関係数) が式に入ってきます.
この辺は初歩クラスの統計の本にあるような気がします.
蛇足ですが, 普通「σ」は標準偏差を表すのではないかな.
この回答への補足
早速ご回答いただき、ありがとうございます。
規模、平均が等しく、独立である場合は、
回答頂けましたように、Var(Z)=Var(X)+Var(Y)になるかと思います
(標準偏差の2乗が分散かと思いますので、σ^2と表記できるかと思います。そこで、単純化のため上記のような表記にさせていただきました。誤解を招くような表記をしてしまい、失礼いたしました)。
ありがとうございました。
ただ、その応用の規模(この表記は正しくはないと思うのですが…
分布を形成するデータ数をイメージしています)
が異なる場合はどうなるでしょうか。
データ数が100個の分散が0.1で、データ数が10個の分散が2.0があり、
この二つの分布が合わさったとき、
その分散が2.1ではおかしいような気がするのですが…。
私の考え方は間違っていると思うのです。
教えていただけましたら、ありがたく存じます。
よろしくお願い申し上げます。
No.1
- 回答日時:
たしか平均値がすべて同じ場合これだったかと・・・。
σ_C^2=σ_A^2+σ_B^2
参考書は確率、統計関連の書籍がいいと思います。
参考URL:http://home.a02.itscom.net/coffee/tako08Annex.html
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 統計学 二項分布の正規近似について 2 2023/02/10 11:58
- 数学 ポアソン分布と二項分布について ・ポアソン分布における期待値と分散は等しくならない場合がある。 ・二 1 2022/06/12 16:29
- 統計学 統計学を学んでいるものです。 区間推定や検定において度々 t分布やカイ二乗分布、F分布が現れますが、 6 2023/02/15 14:26
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 統計学 統計学の問題です。 数学 51 49 23 77 78 56 44 37 7 29 80 61 36 1 2023/02/03 15:24
- 数学 以下の数学の問題を教えてください。 確率変数Xは標準正規分布N(0、1)に確率変数Yは平均3のポアソ 3 2022/12/02 19:13
- 統計学 確率統計の問題です。 6 2022/07/26 23:23
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 統計学 データサイエンスの問題 1 2023/01/22 20:16
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
二乗平均が平均の二乗より常に...
-
最尤推定量について
-
コンプリートするには平均して...
-
最小自乗法の勾配を推定する式
-
なぜデータの大きさ×分散=最小...
-
アップ率の求め方について
-
パーセントの平均の計算式。 42...
-
Excelで平方2乗平均を計算するには
-
パーセントの合計と平均について
-
1週間当たりの労働時間の計算方法
-
小数点以下
-
100m3/minは何m3/hになりま...
-
<>が平均を表す記号として使わ...
-
1から30までの自然数の和
-
小学6年の女子で800メートルの...
-
f(x0)について
-
給料のアップ率の計算が分かり...
-
重み付き最小二乗法について
-
建築におけるAGLとは何なの...
-
平均年齢の計算
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
おすすめ情報