分散分析での分散比

Question

統計の初心者です。
分散分析の理論でご質問があります。
例えば一元配置実験で
要因aの特性に対する効果を見たい場合、
誤差eとの分散比Va/VeでF検定しますが、
このVa、Veの分散の期待値E(V)はそれぞれ
Va=σe^2+nσa^2
Ve=σe^2
となり、σa^2は0以上なので
VaはVeより小さくなることはない、
つまりVa/Veは1以上となる
と各参考書でよく見かけます。
しかし、実際に分散分析で、
VaがVeより小さく、F値が1以下のものも
あります。
例をあげるとA1とA2で5回ずつサンプリングして
A1：5, 5.1, 4.9, 5.1 ,4.8
A2：5, 5.3, 4.8, 5.2 ,4.8
の場合
Va=0.0040
Ve=0.0345
F=0.12
となります。
あきらかに先ほどの説明と矛盾していますが
これはどういうことでしょうか？

できるかぎりわかりやすくお願いします。

beeba · Accepted Answer

＞繰り返し数nを増やせば、Vaも大きくなるので、aを有意にどうしてもしたければnを増やせば有意にできてしまうということになりませんか？
＞（繰り返し数を増やせば誤差の自由度は上がりますが、因子aの自由度は繰り返し数には関係ないのでSaは増える一方ですよね）
＞これではσaがどんなに小さくてもnを大きくすれば有意にできる？？？どこが間違っているのでしょうか？

間違ってはいません。因子Ａの効果があるならば、効果を検出できるようになります。
逆に因子Ａの効果がなければ、誤差が小さくなっても、存在しないはずのＡ１とＡ２の差も小さくなり、有意さは出ないはずです。

では、ｎ数を増やせば良いでは確実では無いか、と思われるかも知れませんが、ｎ＝５くらいで、有意さが出なかったわずかな効果でも、あるかもしれないと期待して、この先検討を進める事に意味があるのかどうかという点に関わってきます。このへんは検討する技術分野の固有問題です。
他に効果の大きい因子があるかもしれないのに、効果があるかどうか分からないような因子にこだわるのか、ということですね。
薬効や人命に関わる微妙な問題だったらこだわるかも知れませんね。

とりあえず効果のありそうな因子を見つけたいのなら、２元、３元配置法、実験計画法、パラーメータ設計などの出番です。
割合少ないｎ数で、如何に効率よく効果がありそうな因子を見つけるか、という手法です。この過程でプーリングして消していった因子は、効果が無いのではなく、効果があるとはいえないから、とりあえず消して消して、他の効果の大きそうな因子に絞って行くのです。
どんな対策が効果的かわからないような問題では、この方が効率的ですね。多変量解析もいいかも知れません。

厳密にどれくらいｎ数を取ればよいか、検出力とｎ数の関係は、、、私も勉強中で理解しきれていません。

参考URL：http://www4.ocn.ne.jp/~murakou/anova.htm,http://aoki2.si.gunma-u.ac.jp/

beeba · Answer

Ｎｏ３の日本語変ですね。途中でボタン押してしまいました。
申し訳ありません。のついでにもう一言。
αとβはトレードオフの関係にあるので、
Ｐ値を見れば、効果があるかないか、大体想像つきます。

beeba · Answer

No1です。気になったので、追記させていただきます。
＞数学的な意味を明確にする意図のようですが、統計ソフトを使う実務ではべつに分散の期待値なんて分からなくてもできますね。
＞それらが全くの別物だと、素人は混乱してしまいそうですね。

素人が統計ソフトの結果だけから、効果がある無いと判定すると危険ですよ。という意味で、
　分散の期待値：Ｅ(V)　σe^2+nσa^2　
が記載してあるのだと思います。
統計の勉強をなさっているようなのでわかるとおもいますが、
　第2種の誤りβ（ぼんやり者の誤り）
に気をつけなさいといっているのだと思います。
帰無仮説Ｈ０が棄却された時に、Ｈ１が実は正しい確率（第1種の誤り）は、有意水準αなので、αを小さくすればまず問題ありませんが、帰無仮説Ｈ０が棄却されない時に、実は対立仮説Ｈ１が正しい（第2種の誤り）確率βはどれくらいか分かりません。
効果の分散の構造式に繰り返しの数ｎがあることからも分かるとおり、ｎが大きければ、第2種の誤りは低減できます。
すなわち、ｎが少ない場合に、Ｈ０を採択するした場合、本当は効果がるのに、ばらつきが大きいだけで、見逃している場合があるのです。
だから統計の本ではなぜこのような分析をしているのかという理屈の部分に力を割いているのだと思います。
つまり、データにはばらつきがありますよ。
でも、誤差のばらつきの影響は、ｎ数を増やせば小さくできますよ。
って事を忘れないでね。ということだと思います。

beeba · Answer

Va=0.0040、Ve=0.0345の値は分散分析表のVに出てくる値ですね。
すなわち、Va＝Sa/φa、Ve＝Se/φe
これに対して分散の期待値
σe^2+nσa^2、σe^2
は上記とは別のものです。私は下記のように理解しています。
Ve＝σe^2、Va＝nσa^2（Vaの方は正確で無いかも知れません）
σe^2に対してnσa^2が有意であるかをF検定にて分析します。
では、なぜ分散の期待値があるかというと
データｘの構造式は
xij=μ＋ai+εij
　μは母平均、aiは水準Aの時の効果、εijは誤差～ｎ(0,σe^2)
　ただし、Σai＝0、σa=(Σai^2)/(m-1)・・・mは水準の数
残差平方和は、St＝Sa+Se　ですので、
因子Aと誤差のデータに与える影響は、純粋なＡの効果と誤差の効果の影響で決まるため、分散の期待値は　σe^2+nσa^2　と書けます。
ポイントは、aiの平均値とεijの平均値がともに0だという点で、行列式で考えてみると分かりやすいです。

分散の期待値は、特に詳しい統計の教科書に出てきます。
数学的な意味を明確にする意図のようですが、統計ソフトを使う実務ではべつに分散の期待値なんて分からなくてもできますね。

分散分析での分散比

＞繰り返し数nを増やせば、Vaも大きくなるので、aを有意にどうしてもしたければnを増やせば有意にできてしまうということになりませんか？

Ｎｏ３の日本語変ですね。

No1です。

Va=0.0040、Ve=0.0345の値は分散分析表のVに出てくる値ですね。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング