【統計】効果検証としてのT検定・F検定

Question

効果検証についてT検定とF検定で悩んでおります。

例えば製品不良率を改善したく改善前と後でデータと取りT検定(ウエルチのt検定)を行います。
　結果：1.00で　有意性なし
となった場合でもF検定で
　結果：0.002　有意性あり
となった場合は平均的な数値は変化が無かったが分散は変化した(小さくなった)ことが
分かった場合は以前より安定的に生産できるようになったと捉えてよろしいのでしょうか？

効果を何と捉えるかによって違うとは思うのですが、やった改善活動が不良率を下げることが
出来なくても分散を小さくすることに貢献できていればその改善はやめるべきではないかと
思っております。

改善をしていて数値(不良率)が下がらなかった＝効果なし
としてやめてしまうことが多くそれがなんかもったいないなと思っておりました。

説明が下手で申し訳ございません。
ご教授頂けますでしょうか。

kamiyasiro · Accepted Answer

言い換えれば、改善によって、偶発的な不良は減ったのでしょう。

しかし、定期的に出る別原因の不良を対策できていないため、高値安定なんでしょうね。

休憩後の仕掛り時とか段替え時を層別して調査してみるべきですね。

kamiyasiro · Answer

次に、不良率の分散の比較ですが、Ｆ検定ではできません。

また、安定しているか、という考えは間違っています。

原因は、不良率は0～1（100％）の値を取りますが、0と1では、分散は0だからです。つまり、不良率が下がれば、当然分散は小さくなります。
（大量生産している場合はポアソン分布で近似しますが、ポアソン分布は平均がλのときは分散もλです）

不良率が一定で、不良率の分散だけが小さくなるのは、安定しているのではなく、どこかに定期的に不良を出すような原因があると考えるべきです。

不良率の分散が小さいときは、平均も必ず小さくなります！

kamiyasiro · Answer

t検定とF検定（一元配置の分散分析）は同じ結果を与えますので、そんなにｐ値が異なるのは、たぶんやり方を間違えてみえます。

t検定を片側検定にしても、ｐ値はおよそ半分になるだけです。
（Ｆ検定は、分散の差の検定をしていませんか？）

結果が同じになることを信じてもらえないようなので、事例を示します。ただし、t検定にウェルチを使うと若干違ってきますので、それも示します。でも、若干です。

計算が面倒なので、統計ソフトＲでやりました。
使用したデータは、架空のデータです。両者とも同じです。
x1 が、54, 56, 59, 53
x2 が、48, 47, 50, 47
で、この差が有意かどうかを調べます。

まず、t検定です。ウェルチは使っていません。F検定と合わせるために両側検定にしています。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーー
> # t検定
>
> x1 <- c(54, 56, 59, 53)
> x2 <- c(48, 47, 50, 47)
>
> t.test(x1, x2, alternative = c("two.sided"), var.equal = TRUE)

Two Sample t-test

data: x1 and x2
t = 5, df = 6, p-value = 0.002452
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.829632 11.170368
sample estimates:
mean of x mean of y
55.5 48.0
ーーーーーーーーーーーーーーーーーーーーーーーーーーーー

これより、ｐ値は、0.002452

次にＦ検定（分散分析）です。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーー
> # F検定(一元配置の分散分析)
>
> x <- data.frame(matrix(c(
+ 1, 54,
+ 1, 56,
+ 1, 59,
+ 1, 53,
+ 2, 48,
+ 2, 47,
+ 2, 50,
+ 2, 47),
+ ncol = 2, byrow = T))
>
> colnames(x) <- c("y", "x")
>
> summary(aov(y ~ x, data = x))
Df Sum Sq Mean Sq F value Pr(>F)
x 1 1.6129 1.6129 25 0.00245 **
Residuals 6 0.3871 0.0645
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
ーーーーーーーーーーーーーーーーーーーーーーーーーーーー

これより、ｐ値は、0.00245
t検定と同じ結果です。

ちなみにウェルチのt検定は、

ーーーーーーーーーーーーーーーーーーーーーーーーーーーー
> t.test(x1, x2, alternative = c("two.sided"))

Welch Two Sample t-test

data: x1 and x2
t = 5, df = 4.5849, p-value = 0.005206
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.536725 11.463275
sample estimates:
mean of x mean of y
55.5 48.0
ーーーーーーーーーーーーーーーーーーーーーーーーーーーー

ｐ値は少し異なり、0.005206

kamiyasiro · Answer

あと、2群の比較のt検定とF検定は、統計的には同じことなので、同じ結果が得られます。

t検定は３群以上の比較ができません（というか多重比較になる）ので、その場合はF検定が使われます。

kamiyasiro · Answer

不良率は、ロジット変換か逆正弦変換をしていますか？
50％前後の場合は良いですが、ゼロ漸近するときは変換が必要です。

【統計】効果検証としてのT検定・F検定

言い換えれば、改善によって、偶発的な不良は減ったのでしょう。

次に、不良率の分散の比較ですが、Ｆ検定ではできません。

t検定とF検定（一元配置の分散分析）は同じ結果を与えますので、そんなにｐ値が異なるのは、たぶんやり方を間違えてみえます。

あと、2群の比較のt検定とF検定は、統計的には同じことなので、同じ結果が得られます。

不良率は、ロジット変換か逆正弦変換をしていますか？

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング