アプリ版:「スタンプのみでお礼する」機能のリリースについて

色々と自分なりに調べたのですが、統計学に関する知識が無く、非常に困っています。
ある機器の導入が顧客数に関係してるか否かを知りたいのですが、
機器導入ありの施設が、顧客数
120,1300,1300,180,180,200,240,300,300,350,350,430,480,50,500,500,500,600,600,600,600,650,700(人)と23施設あり、平均値が480人
機器導入なしの施設が、顧客数
150,150,150,160,200,200,250,400,430,450,500,500,500,600,600,70,700(人)と17施設あり、平均値が354人となります。
顧客数が少ないため機器の導入を行っていないというのを立証できるのか教えて頂きたいです。
t検定で求めるのかと考えていたのですが、結果の解釈についてもご教授頂けると幸いです。宜しくお願いします。

A 回答 (4件)

#3です。


ちょっと抜けがありました。
H0:μA=μ
H1:μA<>μ

H0:μA=μB
H1:μA<>μB
です。
    • good
    • 1

機器導入ありの施設と機器導入なしの施設で、顧客の平均値に差があるかどうかの検定はできますが、顧客数が少ないため機器の導入を行っていないというのを統計的検定で立証することはできないでしょう。


仮に、質問の場合に顧客平均値に有意の差があるとなっても、それを、顧客数が少ないため機器の導入を行っていないと結論することは全くできません。機器の導入の施設の顧客平均値が有意に多ければ、単に機器導入をした施設では平均値が多く、機器の導入を行っていない施設では平均値が少ないといえるだけです。なぜ導入しなかったかという調査にはなっていません。
なぜ機器の導入をしなかったのかは、施設の経営者にアンケートでもとって、それを統計的に処理するということになるでしょう。
また、同じ母集団から無作為割付で、2グループの標本を選び、片方のグループに機器を導入し、顧客が増えたかどうかの検定ならできます。この場合、顧客の平均値に有意の差があって、他の条件が変わらなければ、それは機器導入の効果だと結論することができるでしょう。
なお、質問のデータでは微妙なところ(母集団が正規分布するのか、データに外れ値はないのか、標本の大きさは十分かなど)がありますが、これらを無視して、平均値の差があるかどうかを5%の優位水準で検定すれば、z検定、t検定ともに優位差は無いと結論されます。
H0:μA=μ
H1:μA<>μ
nA=23
nB=17
xA=480
xB=354
sA=317
sB=197
で、
z0=1.54<1.96=z
t0=1.44<2.02=t
で、H0を棄却できない。
    • good
    • 0

一般的にデータ数が少なければ(サンプルサイズが小さければ)たとえ統計学的に差が認められる場合でも「有意な差は認められない」という結果が得られます。

逆にデータ数が多ければ実質的な差はなくても「統計学的には有意な差が認められる」という結論が得られることになります。そして適切なサンプルサイズはパワーアナリシスによって見積もられるべきものです(ただ経験的に最低でも20くらいのデータ数は必要といえる)。

実際にこのデータについてt検定(ウェルチの検定)を行ってみると以下のようになります。

t = 1.544, df = 37.092, p-value = 0.1311

左から順にt値(検定統計量)、自由度、p値となっていますが、直接的にはp値を見て判断すればよいです。「2つの母平均は等しい」という帰無仮説について検定しているので、5%水準の下でならp=0.1311 < α=0.05となるので帰無仮説を棄却するということです。

要するに差が認められない(どっちでもおんなじ)ということですね。

ところで、両群それぞれのデータをプロットしてみると導入ありの群は1300という大きな値が2つあるので(若干、はずれ値っぽい)、これを取り除くと平均値はなおのこと差が小さくなります(検定の結果もそれに伴ってp値が大きくなる)。No.1さんがご指摘されているように導入あり群に50、なし群にも70という小さな値が1つずつありますが、これも気になるところです。
    • good
    • 0

導入ありの1300,1300、50、導入なしの70は、間違いですよね



>t検定で求めるのかと考えていたのですが
2群の顧客数は、ランダムサンプリングしたとは想定できないので、正規分布しているとは言えません。この場合は、分散が等しいとは言えませんので、エクセルだと、=(A1:A23,B1:B17,2,3)と書いて下さい

 私なら、U検定を使いますが

>結果の解釈
「導入の有無は、顧客数によって有意差がある」とだけ

データ数が多ければ、もう少し役に立つ分析も可能。
 たとえば、250人以内の施設は、導入率50%、251~500は60%、500以上は62.5%など。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!