マンガでよめる痔のこと・薬のこと

「ハンバーガー統計学にようこそ!
ハンバーガーショップで学ぶ楽しい統計学──平均から分散分析まで──」
というサイトで,統計の勉強をしています。
http://kogolab.jp/elearn/hamburger/index.html
大学の個別化教授システムで使えるように開発されたものを,web公開されているということです。


「4. t検定(対応なし)」の章でいくつかわからない点があるのですが,詳しい方教えていただけませんでしょうか。
http://kogolab.jp/elearn/hamburger/chap4/sec0.html

わくわくバーガーとモグモグバーガーという2店のハンバーガーの味の評価を比較するという設定です。
ランダムに選んだ女子高生に,1人目はワクワクバーガー,2人目はモグモグバーガー,3人目はワクワクバーガー…と食べてもらい,味の評価点をつけてもらいます。
そしてワクワクの8個の評価点とモグモグの8個の評価点を統計手法で比較していきます。
平均,分散を求め,標本の差の信頼区間を求め,t検定を行います。
ワクワクの評価点と,モグモグの評価点は,母集団Aと母集団Bから抽出された標本A,Bとして扱われています。

このページの「信頼区間を差に適用してみる」のところで,
http://kogolab.jp/elearn/hamburger/chap4/sec2.html
「平均の差の信頼区間=(標本平均A-標本平均B)±t×差の標本標準誤差」を求めているのですが,「差の標本標準誤差」を求める過程で「AとBの母分散は等しいとして、「推定母分散」と表記する」としています。

でも,母集団Aは「ワクワクバーバーを食べた人全員の評価点」,母集団Bは「モグモグバーガーを食べた人全員の評価点」だと思うのですが,どうしてその分散が等しいと仮定できるのでしょうか。(片方のバーガーの方が,人によって評価の差があるというか,好みが分かれやすいというのはありえると思うんですが…)
こういう仮定は,差の信頼区間を求める場合,普通に行われる議論なのでしょうか。

また,ここで等しいと仮定できない場合,この後,どのように式を求めていくのか,ご存知でしたら教えていただけませんでしょうか。

実際にこの計手法を応用したいのは,化学実験のデータなのです。同じ検体に,試験法AとBを適用した場合に,結果に差があるかどうかを,数回の実験から推定したいということです。試験法Aのすべての結果が母集団A,試験法Bが母集団Bとなります。
この場合,試験法によって,結果の数値の平均値にずれが出ることもありますし,平均値は同じでも,片方の試験法の方が数値のバラツキが大きい場合もありえます。
ですので,母集団A,Bの母分散A,Bが一致するという仮定があっては,私の使いたい場合には応用できないと思うのですが,どうなのでしょうか。
このままの考え方では応用できない場合,どのように式を求めたらよいのでしょう。


それから,信頼区間と検定の解釈がよくわかりません。
同じページの「差の信頼区間の解釈」で「ワクワクバーガーとモグモグバーガーの評価点の差は、5点でした。しかし、その信頼区間には、0点が含まれていました。つまり、母集団においてその差が0点であること、つまりワクワクバーガーとモグモグバーガーの評価には差がないということが、十分起こり得ることだと解釈できます。」という「結論」のようなものが出ています。
ところが次のページから「4.3 t検定」が始まり,
http://kogolab.jp/elearn/hamburger/chap4/sec3.html
「t検定の考え方」のところに「さて、計算したtは、-1.29でしたので、5%有意水準での棄却域には入っていません。したがって帰無仮説は棄却できません。結論としては、ワクワクとモグモグの評価点の平均には差がないということになります。」と,また結論が出ています。
この結論は同じことを言っているのでしょうか。それとも違う意味があるのでしょうか。

実際の統計処理を行う場合,両方の結論を出さなければならないものなのでしょうか。片方出せばよいのでしょうか。
片方が「差がない」,片方が「差がある」という結論が出る場合もあるのでしょうか。その場合はどのように判断をすればよいのでしょう。


統計は何度勉強しようとしても,なかなか理解できず,困っています。
この教材は割とわかりやすいかと思ってはじめたのですが,やっぱりいろいろ引っかかっております。
詳しい方いらっしゃいましたら,なるべく初心者向きの解説をお願いできませんでしょうか。
よろしくお願いいたします。

このQ&Aに関連する最新のQ&A

A 回答 (1件)

>母集団A,Bの母分散A,Bが一致するという仮定


こういう仮定を無条件においてはいけない場合には、まず、F検定で等分散かどうかを検定するとよろしいかと。
「役に立つ薬の情報~専門薬学>統計学>F検定(等分散の検定)
http://kusuri-jouhou.com/statistics/fkentei.html」などが参考になるのでは。
---------(上記サイトより引用)
独立2群の差の検定の場合、二標本t検定には「正規分布である」「等分散である」の二つの条件が必要である。そのため、たとえ正規分布していても等分散でなければ二標本t検定を使ってはいけない。
---------(引用ここまで)

個人的には、この程度の標本数だと、F検定ではめったに差が出ないと考えています。分母分子とも自由度7としてもF(0.05)は3.79ですので、ワクワクバーガーとモグモグバーガーの分散比F=55.86/49.61=1.12598では「等分散である」という仮説を棄却できません。

なお、「ハンバーガー統計学にようこそ!」について一番詳しいのは、書かれたご本人の向後先生だと思います。shirogane1さんは「トップページ」の「Web教材について」をご覧になったと思うのですが、向後先生にお問い合わせなさるのが正確かと思います。
    • good
    • 0
この回答へのお礼

ありがとうございます。
お返事が遅れて申し訳ありませんでした。

つまり、8個の標本ではいずれにせよ等分散でないという結論は出ないので、初めから等分散であるという仮定で話を進めるわけですね。
たしかに、実験データでも、やってるものの感覚からすると、明らかに差のあるデータなのに、統計処理すると差があるという結論が出なくて、逆に困ることが多かったりします。1試験室で1試験法8個くらいずつのデータ取りというと、結構大変なのですが、それくらいのデータで物事を判断するのは、所詮ムリがあるということでしょうね。
とりあえず、今回は等分散という仮定でやってみることにいたします。
ありがとうございました。

おすすめのサイトも見てみましたが、さっぱりわかりませんでした…
式がいろいろ出てきますが、何をどこに代入する式なのか理解できず…
せっかく教えていただいたのに、申し訳ありません。ほんとにセンスがなくて困ったものです。

大変お世話になりました。
またつまらない質問をするかもしれませんが、今後ともどうぞよろしくお願いいたします。

お礼日時:2009/11/25 19:28

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む


人気Q&Aランキング