プロが教える店舗&オフィスのセキュリティ対策術

統計初心者です。

男女で病気のかかり易さを比較しました。
すると女性で発症率が高い結果でした。
ですが、男女の年齢に有意差がありました。

ということは年齢の影響があるかもしれず、
女性で発症率が高いとは言えないはず…。

こういう場合、
もともと年齢層が異なる時点で比較できないのでしょうか、
それとも、さらに高度な統計手法が必要なのでしょうか??

具体的には…
  発症なし  発症あり
男 2425人  103人
女  557人   47人
の結果でしたので、かい二乗検定を行ってp<0.05、
女性の方が発症しやすいと考えました。

ところが実際にはこの男女の年齢層には差がありまして…
     発症なし  発症あり
若年男性 1838人 58人
若年女性   94人  3人
と若年者(ある年齢以下)を抽出すると、有意差なしの結果でした。

全年齢層では有意差があるのに若年層だけでは差がないということは、
年齢の影響があって性別だけで発症しやすいとは言い切れないということでしょうか?

統計の教科書がなかなか理解できず、
急遽質問させていただきました。
詳しい方、なにとぞご教授お願いいたします。

A 回答 (1件)

「何を基準にして」「何の差があるかないか」を調べようとしているのかによります。



>  発症なし  発症あり
>男 2425人  103人
>女  557人   47人
>の結果でした

これは「発症率に男女の差はない」という仮説に対して、「実現確率<0.05」という検定結果なので、「5%以下の確率だから、めったに起きないことだ」と否定して、その反対の仮説「発症率に男女の差がある」という結論を得たのですよね?

これからすると「母集団」は 2,982人で構成されるのですよね?

これに対して
>     発症なし  発症あり
>若年男性 1838人 58人
>若年女性   94人  3人

は、若年者 1,934人の母集団に対して、「発症率に男女の差はない」という仮説が否定できなかったということですよね?

>全年齢層では有意差があるのに若年層だけでは差がないということは、
>年齢の影響があって性別だけで発症しやすいとは言い切れないということでしょうか?

2つの検定結果は「それぞれ」その通りの結果だと思いますが、異なった母集団に対する結果ですので(若年者は上の母集団の部分集合だとしても、検定する上では別の母集団)、2つの結果を直接比較しても意味がありません。

「男女差」と「年齢」の2つの要素で比較したいなら、2,982人の母集団を「男女」「若年・老年」の4グループに分けて、「男女差」「年齢」あるいは「男女差と年齢との複合要因」の各々の影響を分析する「分散分析(この場合には2要因)」(ANOVA)というものをやってみてはいかがでしょうか。

中身は、専門書なり解説サイトを参照してください。
https://ja.wikipedia.org/wiki/%E5%88%86%E6%95%A3 …
↓ 分かりやすい解説「ハンバーガー統計」
http://kogolab.chillout.jp/elearn/hamburger/chap …
http://www.aoni.waseda.jp/abek/document/anova.html

なお、「手法」とは関係なく、男女のサンプル数に差がありすぎると思います。特に「上の母集団 2,982人」の中に、「若年女性」が非常に少ないという特徴が顕著ですね。これも正しい判定ができない一つの要因になり得ると思います。
    • good
    • 0
この回答へのお礼

丁寧な説明でしかも素早い回答を、どうもありがとうございました。
「母集団が異なる」から直接比較できないことも納得できました。
質問させてもらい、良かったです。
解説も参考にしてみます。
他にもいろいろ疑問がありますので、
また質問した際にはよろしくお願いします!

お礼日時:2017/02/06 01:50

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!