
以下は、ある2つの標本データから、それぞれ、
s1/s2: 偏差の平方和
n1/n2: データ数
x_bar1/x_bar2: 平均値
を算出して、検定統計量t値とp値を算出して、2つの母集団の平均値の有意性を検証しているのですが(p値は5%の有意水準としています)、一般にt値は、
t = (標本平均 - 母平均) / √普遍分散/データ数
で求まるようなのですが、以下のt値の計算のデータ数の算出式
*(1/n1 + 1/n2) = /(n1 + n2)/n1n2
の意味が分かりかねています。どうしてこのような式になるのか教えてください。
# 検定統計量の計算
## 分散の計算
var = (s1 + s2) / (n1 + n2 - 2)
## t値の計算
t0=(x_bar1 - x_bar2) / np.sqrt(var * ( 1/n1 + 1/n2))
## 得られたt値をもとにp値を計算
p_value = t.cdf(x=t0,df=n1 + n2 - 2)
print(var,t0,p_value)
No.1ベストアンサー
- 回答日時:
いわゆる「2群の差の検定」ということですよね?
2群のサンプルから、それぞれの母集団の平均に差があるといえるかどうかを検定するもの。
その場合には、母集団の分散は未知ですから、サンプルの分散から推定することになります。
そのときに、検定の帰無仮説(否定したい仮定)が「2つの母集団は同じもの」(平均も分散も等しい)というものですから、2群のトータルの分散から母集団の分散を推定します。
それを「プールした(された)分散」と呼ぶと思います。
1群のサンプルから母分散を推定するものが「不偏分散」であり、2群の分散から共通の分散を推定するのが「プールした分散」です。
「プールした分散」は
(s1 + s2) / [(n1 - 1) + (n2 - 1)]
= (s1 + s2) / (n1 + n2 - 2)
となります。
これが質問文中に書かれた
>## 分散の計算
>var = (s1 + s2) / (n1 + n2 - 2) ①
ですね。
母集団の分散が σ^2 のときに、そこから N 個採取してきたサンプルの平均 Xbar1 は、分散
σ^2 /N
で分布することは理解していますよね?
従って、母分散の推定値が①であれば、そこから n1 個採取してきた群1の平均 Xbar2 の分散は
var/n1
n2 個採取してきた群2の平均の分散は
var/n2
になります。
従って、2群のサンプル平均の差 Xbar1 - Xbar2 は、平均が 0、分散が「分散の加法性」から
var/n1 + var/n2
で分布することなります。
この分散は、つまり
var[(1/n1) + (1/n2)]
です。
これが「(1/n1) + (1/n2)」の理由です。
2群の差の検定については、下記なども参考にしてください。
↓
https://bellcurve.jp/statistics/course/9427.html
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
3000円が3割なら10割はいくらで...
-
「日常生活における数列」とは...
-
真割引とは?
-
日本の風俗嬢人口って10万人超...
-
指数近似を行い、時定数を求め...
-
増加率、伸び率
-
田一反にできるお米の数は?
-
プラスとマイナスが入った比率...
-
確率の問題で、「5人の中から3...
-
十分性と必要性について。
-
効用関数や生産関数のmin{・}と...
-
滴定の実験で、結果をExcelで一...
-
関数の値の変化 添削願い
-
ミクロ経済学の微分について(...
-
log-logの補間式
-
凹関数?
-
制約つき最適化問題
-
線形代数の対称行列についての...
-
146番の問題教えてください 教...
-
高低差のある支持点で,電線の...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
おすすめ情報