dポイントプレゼントキャンペーン実施中!

2つの母集団の平均差に有意差があるかを調べるためエクセルでT検定をしましたところ、ある異変に気づきました。

メニューの「ツール>分析ツール」で等分散を仮定した2標本による検定を選ぶと、"配列1"と"配列2"に各々の集団を入れることになります。ところが、それぞれの欄に入れる集団の順番を入れ替えると両側有意確率が.05以下だったものが、.05以上になってしまい、有意差の有無の結果が間逆になってしまいます。

分析の概要は以下のとおりです。
(F検定で等分散は確認済み)

標本1:
火曜日を除外した某先物の寄値-引値の価格差(デイトレードの成績)
サンプル数→489個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:647

標本2:
火曜日だけのデイトレ成績
サンプル数→88個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:3215

2つの集団の平均差:2568
******************************
分析結果にみられる矛盾

>>>>>>>[標本1]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かよう以外かよう
平均646.88444833214.899617
分散201365586.2157505681.3
観測数48988
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t -3.178472095
P(T<=t) 片側0.000780042
t 境界値 片側1.647508725
P(T<=t) 両側0.001560084
t 境界値 両側1.964099283

>>>>>>>>[標本2]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定

かようかよう以外
平均3214.899617646.8844483
分散157505681.3201365586.2
観測数88489
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t 9.38710200484845E-06(質問者が換算→0.00094%)
P(T<=t) 片側0.499996257
t 境界値 片側1.647508725
P(T<=t) 両側0.999992514
t 境界値 両側1.964099283

************************
 以上のようにT値のあたい自体もかわってしまうのです。本で計算式を調べても違いは出ないはずなのに(統計初心者です。まちがってたらゴメンナサイ)どうしてでしょうか。サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。おそらく右側検定とか、左側検定とかの概念と関係しているのかもしれませんが、本やネットで調べても判然としません。

 ちなみに月、火、水、木、金と曜日別に成績をわけ、SPSSで一元配置の分散分析(ANOVA)、Welch検定, Brown-Forsythe検定, ボンフェローニの多重比較表でも確認したところ、曜日間に有意差はみられませんでした。

 どうしてエクセルでは、配列の順番により結果が変化するのか、どなたさまかぜひ教えてください。統計初学者なので、珍妙なことを申し上げてるかもしれませんが寛大なご教示のほどよろしくお願いいたします。

A 回答 (4件)

結論を先にいうと、「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。

たぶん、それで配列を換えても同じ結果が得られるはずです。

Excel2003では「仮説平均との差異」と書かれていますが、全然、イミガワカラン。試しにヘルプを読んでみると、

[仮説平均との差異] ボックス
標本の平均値の変動として使う数値を入力します。0 (ゼロ) は、標本の仮説平均が等しいことを示します。

??? あきれて考える気すら失せます(^_^;)

> 2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます

サンプル数とサンプルサイズの用語を区別して使うようにしたほうがよいです。2群というのは独立2標本という意味で、この場合の標本数は2です。そして標本の大きさは各群のデータ数です。

2群のサンプルサイズは異なっていても問題は特にありません。ただ、サンプルサイズが大きいと実際には大した差ではないのに有意差が認められてしまいます。詳しくはhttp://shiriuskun.srv7.biz/toukei_hosoku/samples …を参照のこと。

この回答への補足

用語のご指摘の件ありがとうございます。たすかります。

>「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。たぶん、それで配列を換えても同じ結果が得られるはずです。

たしかにこの対処法で同じ結果が得られました。ですけども僭越ながら質問させていただきますと(初学者特有の質問攻めでスミマセン(^^;)、
統計の教科書(エクセルで学ぶ統計解析、涌井著、p151,153)ではT値を求める公式は(Excel流で書きますと)

= (A群の平均-B群の平均)/ SQRT( A群の不偏分散 * A群の不偏分散/ Aの標本の大きさ + B群の不偏分散 * B群の不偏分散/ B群の標本の大きさ )

ですよね。(http://ja.wikipedia.org/wiki/T%E6%A4%9C%E5%AE%9A)で公式をコピペしようとしましたができませんでした。手書きで見づらくてすみません)

つまり2群の平均差はT値を計算するうえでは不可欠な要素のはずだという気がするのですが、いかがなのでしょうか。(ちょっと混乱してます)ちなみに回答ANO.2でアップロードしたデータをもとに、上記公式でセル関数をつかって計算しましたがT値が0.000156442でした。分析ツールで計算した矛盾した両値とも異なりますし、backさまに計算していただいた「平均差の欄」を空欄にした計算値である2.05921537とも異なりました。(--;) ちなみにSPSSが算出した不等分散のT値は1.981でした。Backsさんの計算値に近いですよね。(厳密には遠いんでしょうけど)

なんだか不毛な質問群につきあわせてしまってすみません。結論から申しあげますと、分析はすべてSPSSですることにします。統計結果の解釈には深い素養が必要な事を実感させられました。

初心者向けの本を5,6冊読んだだけで実務(予測モデルの構築と検定)に活かせるようになるまでには遥かな道のりがありそうですね。数学の素養も不可欠そうですし。

何はもあれ、偶然の産物によるゲタを履かされた成績の予測モデルをもとに相場を張りたくないものです。(笑)

最後までお付合いいただきありがとうございました。m(__)m

補足日時:2008/01/08 01:18
    • good
    • 0
この回答へのお礼

backさま、ご親切に質問にお付合いくださいましてありがとうございます。

お礼日時:2008/01/08 01:25

ちょっとくどいようですが、、、正確に計算してみると(有効数字桁数を上げてみると)、Excelが随分とよろしくないことが分かります。



# Excelの場合
t = 2.059250249
d.f. = 143
p = 0.04128438

#Rの場合
t = 2.05921537
d.f. = 142.599820
p = 0.0412928844

この回答への補足

backsさま

いいえ、回答をエントリしていただけるだけでも光栄の至りです。もしよろしければ回答no.2に書いた小生の補足をお読みいただけませんでしょうか。どうぞよろしくお願いいたします。

補足日時:2008/01/06 11:29
    • good
    • 0

まず「等分散を仮定した2標本による検定」を行っていますが、今回のデータはウェルチの検定(等分散性を仮定しない場合に適用されるもの)を行うべきです。

というか、実はいかなる場合においてもウェルチの検定を用いた方が良いのです(少し難しい話ですがhttp://aoki2.si.gunma-u.ac.jp/lecture/BF/index.h …を参照)。

それから、私もExcelで同じように「等分散を仮定した2標本による検定」をやってみましたが、どうやら今回の場合はExcelのバグではなくて、質問者さんの操作ミスだと思います。配列を入れ換えても、どちらもp=0.060766998になるはずです。

ただし、このExcelの分析ツールで求めたp値はまるで精度が悪い。「等分散を仮定した2標本による検定」をRでやってみた結果と比べると次のようになります。

 p=0.060766998(Excelの場合)
 p=0.060773086(Rの場合)

ウェルチの検定(Excelでは分散が等しくないと仮定した2標本による検定)を両者でやってみると次のようになります。Excelでは自由度が小数点ではない。。。

 p=0.04128438(Excel) d.f.=143
 p=0.0412943758(R) d.f.=142.6

この回答への補足

backsさま

参考urlをお示しいただきありがとうございます。たしかに難しすぎて(小生は数学が得意ではありませんで)理由はよくわかりませんでしたがウェルチ検定の優位性がわかって助かりました。(ただ「まとめ」の部分にありました、2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます)

訂正ですが、私の使用したのはExcel2002でした。失礼致しました。

貴重なお時間をすでにだいぶ割いていただき非常に恐縮ですが、もしよろしければ、以下urlに私の分析手順を示した.jpg画像で見ていただけませんでしょうか。

http://www.megaupload.com/jp/?d=XU94JF0C

操作手順を画像にしてエクセルに添付しただけなので、わたしの手順に間違いがあれば一目で確認できるかと存じます。その間違いをご指摘いただければ大変たすかります。

一応、自分でエクセルの統計手順の本を数冊確認しましたが、教科書どおりに操作をしているつもりなので、どうしても間違いが発見できません。あつかましいお願いですので、もしご面倒でしたら流していただいても結構でございます。

補足日時:2008/01/06 11:06
    • good
    • 0
この回答へのお礼

またまた色々と勉強になりました。ありがとうございます。m(_ _)m

お礼日時:2008/01/06 11:23

私も例データを用いてExcelで配列の順番を入れ換えて試してみましたが、配列を入れ換えても問題なく実行できましたね。

ただExcelはバグが多いので、なんらかの原因で(たとえ質問者さんの操作方法が正しくても)正しい値を返してくれないという可能性はあります。要するに「Excelは使うな」ということですね(^_^;)

> t 9.38710200484845E-06(質問者が換算→0.00094%)

0.0000093と「表記」するべきでパーセントに「換算」するのはN.G.です。細かいことですが。

> サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。

そのような必要は全くありません。もしそんなソフトウェアがあったら使う価値はありません。

> 右側検定とか、左側検定とか

両側検定か片側検定の2つあります。右側とか左側というものはありません。

この回答への補足

backsさん

ご説明ありがとうございました。m(__)m 
方々で聞きますがエクセルで統計分析というのは危ないですね(^^;)
Excel2003ではそのようなバグはないだろうとタカを踏んでいたのですが。。。

あとパーセント換算がNGの件もご指摘していただきありがとうございます。

ちなみに上記の分析の元データを以下のリンクにアップロードしておきました。 

http://www.megaupload.com/jp/?d=0GWKEH1F

(最初の質問のデータは「火」「月火水目金」にまちがって集団分けしてました。リンク先では「火」「月水目金」という集団にわけています。分析の目的が「成績のいい火曜日だけにトレードした方がいいか」が趣旨でしたので)

こちらで試しても配列かえると有意差について矛盾のある結果があがります。もしご迷惑でございませんでしたならば、小生の分析になんらかの誤りがあるか確認していただけませんでしょうか。もちろんご面倒なようでしたらぜひお構いなく。

やはりSPSSで有意差検定をすることにします。^^

ありがとうございました。

補足日時:2008/01/06 08:48
    • good
    • 0
この回答へのお礼

backsさん

早速のご教示ありがとうございました。m(_ _)m

お礼日時:2008/01/06 09:17

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!