【選手権お題その1】これってもしかして自分だけかもしれないな…と思うあるあるを教えてください

Χ二乗検定を行いました。素人のため、上司に見せる前に間違っていないか
見ていただきたいです。

添付ファイルをご覧ください。
職場の年間インシデント件数が83件ありました。
エクセルを使用しグラフにしてみると、発生時間帯に差がある、
つまり、発生しやすい時間帯があるように思います。

そのため、素人のために検索を行いながら、
カイ二乗検定を行いました。

上の図のたて列は、

O(観測度数)
E(期待度数)
O-E
(O-E)の二乗
(O-E)の二乗/E

で並んでいます。

検定の結果は、

(1)自由度=12-1=11
(2)カイ二乗分布表から、自由度が11、p=0.05の値(有意水準5%)の値は、19.6751
(3)計算で出したカイ二乗値は52.2311
(3)そのため、有意水準5%で「発生時間帯に差は無い」という帰無仮説は棄却される。
つまり、インシデントが発生しやすい時間帯がある

という結論が出たのですが、ここで皆さんの意見をお聞きしたいです。

(1)この検定は正しいか?間違いか?
(2)正しい場合、8~9時台、16~17時台が、インシデントが発生しやすい時間帯と判断してよいのか?
(3)検定は正しい、しかし、時間帯の判断はできない場合、なぜ判断できないのか?
(4)検定が間違いの場合、どこに問題があるか?
(5)より信頼度を上げる検定方法はあるか?

皆さんのお知恵を、よろしくお願いします。

「カイ二乗検定を行いました。正しいでしょう」の質問画像

A 回答 (5件)

「発生時間帯に差がある。

」ことと「発生しやすい時間帯がある。」には大きな違いがあります。
偶然(この一年のデータはそう出ただけ)かもしれませんし、何らかの「発生しやすい」の要因があるのかもしれません。
どちらにせよ、今回の検定でいえるのは、「発生時間帯に差がある。」ことだけです。それ以上はまた別の考察が必要です。
    • good
    • 0

回答No.4補足


> この場合、8~9時台のp値が3.61028E-06のため、
> 対立仮説が採択され、有意に低いと判断できる』
>
> この考えで正しいでしょうか?

8~9時台の件数が多いので有意に低いではまずいですよね。


> 今回の事例の残差分散の算出方法が今一わからず、

これは、すみません。
参考URLは2行2列以上の分割表の場合で、ご質問の場合ですと違う計算方法になります。
ご質問の例の場合11/12で計算します。
これは、二項分布の分散np(1-p)の1-pに当たります。
    • good
    • 0
この回答へのお礼

何度もお答えいただき、有難ございました。

もう少し自己学習をし、再び質問させていただきます。

お礼日時:2014/03/19 13:21

回答No.3補足


> (1)P値に間違いはありますでしょうか?

微妙に数値が違うようですが、途中の数値の丸めの影響でしょうか。
丸めは最後で構いません。

> (2)このP値を元にした場合、どのように分析すれば、時間帯の特定ができるのでしょうか?

p値が有意水準より低ければ、有意に高いまたは低いとなります。

各時間帯の比較を最初の有意水準で比較してしまうと第一種の過誤を犯しやすくなりますが、違いを見つけたいということに主眼をおくなら、別にそのまま比較しても良いかと思います。
気になるようでしたら、適当な方法(Bonferroni法、Holm法等)で有意水準を調整してください。
(キーワードは「多重比較」、「有意水準の調整(補正)」)

そして有意に違うようであれば、その原因を探るという段階に移ることになります。

この回答への補足

quaestioさま

早速の回答、ありがとうございました。

『Bonferroni法で有意有意水準を補正した場合、
有意水準pは、0.05÷12=0.004となる。

この場合、8~9時台のp値が3.61028E-06のため、
対立仮説が採択され、有意に低いと判断できる』


この考えで正しいでしょうか?

また、
>微妙に数値が違うようですが、途中の数値の丸めの影響でしょうか。

との回答をいただきましたが、今回の事例の残差分散の算出方法が今一わからず、
0~1時台 0.963855422
2~3時台 0.951807229
4~5時台 0.975903614
6~7時台 0.963855422
8~9時台 0.746987952
10~11時台 0.963855422
12~13時台 0.891566265
14~15時台 0.891566265
16~17時台 0.831325301
18~19時台 0.927710843
20~21時台 0.915662651
22~23時台 0.975903614

となりました。1-縦周和/総和 のみ計算した結果です。この考えは合ってますでしょうか?

よろしくお願いします。

補足日時:2014/03/17 22:40
    • good
    • 0

> (2)正しい場合、8~9時台、16~17時台が、インシデントが発生しやすい時間帯と判断してよいのか?



では、次は残差分析をしましょう。
やり方は参考URLが分かりやすいと思います。

参考URL:http://note.chiebukuro.yahoo.co.jp/detail/n71838

この回答への補足

quaestioさま

残差分析を、参考URLを元に行いました。
左が時間帯、右が、それに対応するP値となりました。

0~1時台   0.144206168
2~3時台   0.280136965
4~5時台   0.065006915
6~7時台   0.144206168
8~9時台   3.61028E-06
10~11時台  0.144206168
12~13時台  0.452814847
14~15時台  0.452814847
16~17時台  0.013924952
18~19時台  0.738807396
20~21時台  0.973864332
22~23時台  0.065006915


質問です

(1)P値に間違いはありますでしょうか?
(2)このP値を元にした場合、どのように分析すれば、時間帯の特定ができるのでしょうか?

よろしくお願いします。

補足日時:2014/03/17 16:11
    • good
    • 0

やり方は間違っていない。



>時間帯の判断はできない場合、なぜ判断できないのか

質問の主旨が分かりませんがインシデントの時間帯グラフから読み解けばいいでしょう。そのためのグラフです。検定は単に帰無仮説は棄却ということですから。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報