t値の計算方法

Question

以下は、ある２つの標本データから、それぞれ、
s1/s2: 偏差の平方和
n1/n2: データ数
x_bar1/x_bar2: 平均値
を算出して、検定統計量t値とp値を算出して、２つの母集団の平均値の有意性を検証しているのですが（p値は5%の有意水準としています）、一般にt値は、
t = (標本平均 - 母平均) / √普遍分散/データ数
で求まるようなのですが、以下のt値の計算のデータ数の算出式
*(1/n1 + 1/n2) = /(n1 + n2)/n1n2
の意味が分かりかねています。どうしてこのような式になるのか教えてください。

# 検定統計量の計算
## 分散の計算
var = (s1 + s2) / (n1 + n2 - 2)
## t値の計算
t0=(x_bar1 - x_bar2) / np.sqrt(var * ( 1/n1 + 1/n2))
## 得られたt値をもとにp値を計算
p_value = t.cdf(x=t0,df=n1 + n2 - 2)

print(var,t0,p_value)

yhr2 · Accepted Answer

いわゆる「2群の差の検定」ということですよね？
2群のサンプルから、それぞれの母集団の平均に差があるといえるかどうかを検定するもの。

その場合には、母集団の分散は未知ですから、サンプルの分散から推定することになります。
そのときに、検定の帰無仮説（否定したい仮定）が「2つの母集団は同じもの」（平均も分散も等しい）というものですから、2群のトータルの分散から母集団の分散を推定します。
それを「プールした（された）分散」と呼ぶと思います。

１群のサンプルから母分散を推定するものが「不偏分散」であり、２群の分散から共通の分散を推定するのが「プールした分散」です。
「プールした分散」は
　(s1 + s2) / [(n1 - 1) + (n2 - 1)]
= (s1 + s2) / (n1 + n2 - 2)
となります。

これが質問文中に書かれた

＞## 分散の計算
＞var = (s1 + s2) / (n1 + n2 - 2)　　　　　　　①

ですね。

母集団の分散が σ^2 のときに、そこから N 個採取してきたサンプルの平均　Xbar1 は、分散
　σ^2 /N
で分布することは理解していますよね？

従って、母分散の推定値が①であれば、そこから n1 個採取してきた群１の平均 Xbar2 の分散は
　var/n1
n2 個採取してきた群２の平均の分散は
　var/n2
になります。

従って、２群のサンプル平均の差 Xbar1 - Xbar2 は、平均が 0、分散が「分散の加法性」から
　var/n1 + var/n2
で分布することなります。
この分散は、つまり
　var[(1/n1) + (1/n2)]
です。

これが「(1/n1) + (1/n2)」の理由です。

２群の差の検定については、下記なども参考にしてください。
↓
https://bellcurve.jp/statistics/course/9427.html

t値の計算方法

いわゆる「2群の差の検定」ということですよね？

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング