プロが教える店舗&オフィスのセキュリティ対策術

以下は、ある2つの標本データから、それぞれ、
s1/s2: 偏差の平方和
n1/n2: データ数
x_bar1/x_bar2: 平均値
を算出して、検定統計量t値とp値を算出して、2つの母集団の平均値の有意性を検証しているのですが(p値は5%の有意水準としています)、一般にt値は、
t = (標本平均 - 母平均) / √普遍分散/データ数
で求まるようなのですが、以下のt値の計算のデータ数の算出式
*(1/n1 + 1/n2) = /(n1 + n2)/n1n2
の意味が分かりかねています。どうしてこのような式になるのか教えてください。

# 検定統計量の計算
## 分散の計算
var = (s1 + s2) / (n1 + n2 - 2)
## t値の計算
t0=(x_bar1 - x_bar2) / np.sqrt(var * ( 1/n1 + 1/n2))
## 得られたt値をもとにp値を計算
p_value = t.cdf(x=t0,df=n1 + n2 - 2)

print(var,t0,p_value)

A 回答 (1件)

いわゆる「2群の差の検定」ということですよね?


2群のサンプルから、それぞれの母集団の平均に差があるといえるかどうかを検定するもの。

その場合には、母集団の分散は未知ですから、サンプルの分散から推定することになります。
そのときに、検定の帰無仮説(否定したい仮定)が「2つの母集団は同じもの」(平均も分散も等しい)というものですから、2群のトータルの分散から母集団の分散を推定します。
それを「プールした(された)分散」と呼ぶと思います。

1群のサンプルから母分散を推定するものが「不偏分散」であり、2群の分散から共通の分散を推定するのが「プールした分散」です。
「プールした分散」は
 (s1 + s2) / [(n1 - 1) + (n2 - 1)]
= (s1 + s2) / (n1 + n2 - 2)
となります。

これが質問文中に書かれた

>## 分散の計算
>var = (s1 + s2) / (n1 + n2 - 2)       ①

ですね。

母集団の分散が σ^2 のときに、そこから N 個採取してきたサンプルの平均 Xbar1 は、分散
 σ^2 /N
で分布することは理解していますよね?

従って、母分散の推定値が①であれば、そこから n1 個採取してきた群1の平均 Xbar2 の分散は
 var/n1
n2 個採取してきた群2の平均の分散は
 var/n2
になります。

従って、2群のサンプル平均の差 Xbar1 - Xbar2 は、平均が 0、分散が「分散の加法性」から
 var/n1 + var/n2
で分布することなります。
この分散は、つまり
 var[(1/n1) + (1/n2)]
です。

これが「(1/n1) + (1/n2)」の理由です。

2群の差の検定については、下記なども参考にしてください。

https://bellcurve.jp/statistics/course/9427.html
    • good
    • 0
この回答へのお礼

詳しい説明、ありがとうございます。

お礼日時:2022/12/02 22:07

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!