プロが教える店舗&オフィスのセキュリティ対策術

統計の初心者です。
分散分析の理論でご質問があります。
例えば一元配置実験で
要因aの特性に対する効果を見たい場合、
誤差eとの分散比Va/VeでF検定しますが、
このVa、Veの分散の期待値E(V)はそれぞれ
Va=σe^2+nσa^2
Ve=σe^2
となり、σa^2は0以上なので
VaはVeより小さくなることはない、
つまりVa/Veは1以上となる
と各参考書でよく見かけます。
しかし、実際に分散分析で、
VaがVeより小さく、F値が1以下のものも
あります。
例をあげるとA1とA2で5回ずつサンプリングして
A1:5, 5.1, 4.9, 5.1 ,4.8
A2:5, 5.3, 4.8, 5.2 ,4.8
の場合
Va=0.0040
Ve=0.0345
F=0.12
となります。
あきらかに先ほどの説明と矛盾していますが
これはどういうことでしょうか?

できるかぎりわかりやすくお願いします。

A 回答 (4件)

>繰り返し数nを増やせば、Vaも大きくなるので、aを有意にどうしてもしたければnを増やせば有意にできてしまうということになりませんか?


>(繰り返し数を増やせば誤差の自由度は上がりますが、因子aの自由度は繰り返し数には関係ないのでSaは増える一方ですよね)
>これではσaがどんなに小さくてもnを大きくすれば有意にできる???どこが間違っているのでしょうか?

間違ってはいません。因子Aの効果があるならば、効果を検出できるようになります。
逆に因子Aの効果がなければ、誤差が小さくなっても、存在しないはずのA1とA2の差も小さくなり、有意さは出ないはずです。

では、n数を増やせば良いでは確実では無いか、と思われるかも知れませんが、n=5くらいで、有意さが出なかったわずかな効果でも、あるかもしれないと期待して、この先検討を進める事に意味があるのかどうかという点に関わってきます。このへんは検討する技術分野の固有問題です。
他に効果の大きい因子があるかもしれないのに、効果があるかどうか分からないような因子にこだわるのか、ということですね。
薬効や人命に関わる微妙な問題だったらこだわるかも知れませんね。

とりあえず効果のありそうな因子を見つけたいのなら、2元、3元配置法、実験計画法、パラーメータ設計などの出番です。
割合少ないn数で、如何に効率よく効果がありそうな因子を見つけるか、という手法です。この過程でプーリングして消していった因子は、効果が無いのではなく、効果があるとはいえないから、とりあえず消して消して、他の効果の大きそうな因子に絞って行くのです。
どんな対策が効果的かわからないような問題では、この方が効率的ですね。多変量解析もいいかも知れません。

厳密にどれくらいn数を取ればよいか、検出力とn数の関係は、、、私も勉強中で理解しきれていません。

参考URL:http://www4.ocn.ne.jp/~murakou/anova.htm,http:// …
    • good
    • 0
この回答へのお礼

>n=5くらいで、有意さが出なかったわずかな効果でも、あるかもしれないと期待して、この先検討を進める事に意味があるのかどうかという点に関わってきます。

なるほど!とう感じです
つっかえていたものが取れたようです。

統計は奥が深いですね。私もよく勉強します。
今回は丁寧な回答ほんとうにありがとうございます。

お礼日時:2006/05/16 05:44

No3の日本語変ですね。

途中でボタン押してしまいました。
申し訳ありません。のついでにもう一言。
αとβはトレードオフの関係にあるので、
P値を見れば、効果があるかないか、大体想像つきます。
    • good
    • 0

No1です。

気になったので、追記させていただきます。
>数学的な意味を明確にする意図のようですが、統計ソフトを使う実務ではべつに分散の期待値なんて分からなくてもできますね。
>それらが全くの別物だと、素人は混乱してしまいそうですね。

素人が統計ソフトの結果だけから、効果がある無いと判定すると危険ですよ。という意味で、
 分散の期待値:E(V) σe^2+nσa^2 
が記載してあるのだと思います。
統計の勉強をなさっているようなのでわかるとおもいますが、
 第2種の誤りβ(ぼんやり者の誤り)
に気をつけなさいといっているのだと思います。
帰無仮説H0が棄却された時に、H1が実は正しい確率(第1種の誤り)は、有意水準αなので、αを小さくすればまず問題ありませんが、帰無仮説H0が棄却されない時に、実は対立仮説H1が正しい(第2種の誤り)確率βはどれくらいか分かりません。
効果の分散の構造式に繰り返しの数nがあることからも分かるとおり、nが大きければ、第2種の誤りは低減できます。
すなわち、nが少ない場合に、H0を採択するした場合、本当は効果がるのに、ばらつきが大きいだけで、見逃している場合があるのです。
だから統計の本ではなぜこのような分析をしているのかという理屈の部分に力を割いているのだと思います。
つまり、データにはばらつきがありますよ。
でも、誤差のばらつきの影響は、n数を増やせば小さくできますよ。
って事を忘れないでね。ということだと思います。
    • good
    • 0
この回答へのお礼

補足ありがとうございます。ソフトの解析結果を鵜呑みにするのは危険ですよというのは納得です。
ただ、1点混乱しています。
繰り返し数nを増やせば、Vaも大きくなるので、aを有意にどうしてもしたければnを増やせば有意にできてしまうということになりませんか?
(繰り返し数を増やせば誤差の自由度は上がりますが、因子aの自由度は繰り返し数には関係ないのでSaは増える一方ですよね)
これではσaがどんなに小さくてもnを大きくすれば有意にできる???どこが間違っているのでしょうか?

お礼日時:2006/05/14 20:15

Va=0.0040、Ve=0.0345の値は分散分析表のVに出てくる値ですね。


すなわち、Va=Sa/φa、Ve=Se/φe
これに対して分散の期待値
σe^2+nσa^2、σe^2
は上記とは別のものです。私は下記のように理解しています。
Ve=σe^2、Va=nσa^2(Vaの方は正確で無いかも知れません)
σe^2に対してnσa^2が有意であるかをF検定にて分析します。
では、なぜ分散の期待値があるかというと
データxの構造式は
xij=μ+ai+εij
 μは母平均、aiは水準Aの時の効果、εijは誤差~n(0,σe^2)
 ただし、Σai=0、σa=(Σai^2)/(m-1)・・・mは水準の数
残差平方和は、St=Sa+Se ですので、
因子Aと誤差のデータに与える影響は、純粋なAの効果と誤差の効果の影響で決まるため、分散の期待値は σe^2+nσa^2 と書けます。
ポイントは、aiの平均値とεijの平均値がともに0だという点で、行列式で考えてみると分かりやすいです。

分散の期待値は、特に詳しい統計の教科書に出てきます。
数学的な意味を明確にする意図のようですが、統計ソフトを使う実務ではべつに分散の期待値なんて分からなくてもできますね。
    • good
    • 0
この回答へのお礼

丁寧な回答ありがとうございます。
おおむね理解できました。
統計の教科書を何冊か読んだのですが
分散分析表のVaやVeの欄の一番右に分散の期待値の構造式が併記してあるのがほとんどでした。
それらが全くの別物だと、素人は混乱してしまいそうですね。

お礼日時:2006/05/13 20:27

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!