統計　仮説の立て方

Question

統計学のカテゴリがないようなのでこちらで質問させていただきます。

「二つのグループがあり、一つ目は10人の非喫煙者、二つ目は10人のヘビースモーカーである。二つのグループは、ベースラインとしてＢＭＩの値を調べ、六年後にもう一度ＢＭＩの値を調べている」

「データは一年目のそれぞれのグループのＢＭＩの値、六年目のそれぞれのグループのＢＭＩの値、それぞれのグループ内でのＢＭＩの値の変化した値がある」

上記の条件下で喫煙がＢＭＩに関係しているかどうかの仮説を立てたいのですが、どうやって仮説を立てて良いのか迷っています。

私が考えているのは、帰無仮説（喫煙はＢＭＩの変化に関係ない）、対立仮説（喫煙はＢＭＩの変化に関係する）なのですが、それぞれ

帰無仮説＝一つ目のグループのＢＭＩの変化した値の平均　＝　二つ目のグループのＢＭＩの変化した値の平均、
対立仮説＝一つ目のグループのＢＭＩの変化した値の平均　＜　二つ目のグループのＢＭＩの変化した値の平均

で仮説を立てて良いのでしょうか？

kgu-2 · Accepted Answer

横から再度口出しですが、書き忘れたことが一つ。

平均の差を検定される、ということですが、平均の差を検定するには、前提条件として、2つの群が正規分布(またはt分布)をしている、あるいは想定できる、というのが必要です。
　正規分布は、多数をランダムサンプリングする必要があります。が、人間相手ではランダムサンプリングは困難だと想います。ですから、平均値の差の検定(→t検定)をするなら、データが正規分布していることを確認していないなら、発表時に突っ込まれるかも(突っ込める人は少ないが)。
　データを見ないと確定的なことは言えませんが、平均値に拘らない検定法もあるハズです。
　
検定は、私には難しく、このようなコメントが書けるようになるまで30年かかりました。そして、未だに初心者です。多変量解析なんぞは理解不可能で、『なんで、ワザワザ難しくするのだろう』と常に感じます。

kgu-2 · Answer

>帰無仮説＝一つ目のグループのＢＭＩの変化した値の平均　＝　二つ目のグループのＢＭＩの変化した値の平均、
対立仮説＝一つ目のグループのＢＭＩの変化した値の平均　＜　二つ目のグループのＢＭＩの変化した値の平均
 で仮説を立てて良いのでしょうか？

仮説自体は、研究者の自由です。仮説に対して、適切な検定法があれば、です。

私が危惧するのは、この帰無仮説に対して、6年後に有意差有りと予想されるなら、出発点である現時点(6年前から研究すれば、6年後は現在)でも有意差があるハズ、ということです。となると、今さら6年間も観察しても、・・・。
　すなわち、研究開始時点では、2つの群の状況は、同じでないと検定しても無駄になります(有意差有りは、自明)。

kgu-2 · Answer

このデータには、喫煙と非喫煙で同一、現在と6年後で同一、という2つの帰無仮説が含まれている。ご質問の内容から、初心者には無理、と感じる。

目的を考えて、
1　質問者が帰無仮説を考える
2　その為には、どんなデータが必要か、を考える

ただ、データ集めには不安が残る。というのも、
1　非喫煙群と喫煙群は、喫煙以外の条件(性別、年齢などなど)は、同じか
2　交絡因子(例えば、飲酒)は、配慮しているのか
　と突っ込みたくなる

okormazd · Answer

喫煙者をA群、非喫煙者をB群とします。それぞれの群のＢＭＩの変化した値(実測)の平均をxA、xB、分散(実測)をそれぞれσ'A^2、σ'B^2とします。次のようなt検定になるでしょう。

この場合、両群の「母集団」のＢＭＩの変化した値の平均はそれぞれμA、μBで、分散σA^2=σB^2=σ^2で、正規分布すると仮定しないと、検定できません。検定は、μA=μBかどうか調べることです。実際のデータでは、平均xA、xBで、分散σ'A、σ'Bがわかります。ここで、平均の差xA-xBの分布は、平均μA-μB、分散(1/m+1/n)σ^2になることが知られています(m、nはA群、B群のサイズ)。ところが、σはわからないので、両グループのデータからの分散の推定量sを使います。すると、
T=(xA-xB)/(√((1/m+1/n)s)
が、自由度(m+n-2)のt分布になることを使うのです。信頼度95%、有意水準5%なら、帰無仮説μA=μBを棄却する範囲は、
|T|>t(m+n-2)(0.025)
です。
ところで、sを求めるには工夫が要ります。
s=(A群の残差平方和+B群の残差平方和)/(m+n-2)
なので、A群の残差平方和、B群の残差平方和を、分散σ'A、σ'Bの定義式に戻って求めればいいでしょう。
σ'A=√((A群の残差平方和)/(m-1))で、σ'Bも同様です。

「帰無仮説＝一つ目のグループのＢＭＩの変化した値の平均　＝　二つ目のグループのＢＭＩの変化した値の平均」
ではありません。測定値がxA=xBすなわちxA-xB=0かどうかということではなくて、喫煙者全体(母集団)の平均と非喫煙者全体(母集団)の平均に差があるかどうかを調べるのだから、
帰無仮説：μA-μB=0、対立仮説：μA-μB≠0のt検定です。質問者の書き方だと、xAとxBに差があるかどうか調べるような感じになってしまいます。xAとxBは実測された値が出ているので、検定するまでもないです。実測されたxAとxB、それに分散を使って、そもそも、全部は測定できない喫煙者全体と、非喫煙者全体とで差があるかどうか検定するのです。

「対立仮説＝一つ目のグループのＢＭＩの変化した値の平均　＜　二つ目のグループのＢＭＩの変化した値の平均」
ではありません。「μA-μB<0」も「μA-μB>0」もあるので、対立仮説：μA-μB≠0の両側検定になります。

統計 仮説の立て方

横から再度口出しですが、書き忘れたことが一つ。

>帰無仮説＝一つ目のグループのＢＭＩの変化した値の平均 ＝ 二つ目のグループのＢＭＩの変化した値の平均、

このデータには、喫煙と非喫煙で同一、現在と6年後で同一、という2つの帰無仮説が含まれている。

喫煙者をA群、非喫煙者をB群とします。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

統計　仮説の立て方

>帰無仮説＝一つ目のグループのＢＭＩの変化した値の平均　＝　二つ目のグループのＢＭＩの変化した値の平均、

　このデータには、喫煙と非喫煙で同一、現在と6年後で同一、という2つの帰無仮説が含まれている。