統計解析　相場分析　Ｔ-検定　エクセル　SPSS

Question

2つの母集団の平均差に有意差があるかを調べるためエクセルでＴ検定をしましたところ、ある異変に気づきました。

メニューの「ツール＞分析ツール」で等分散を仮定した2標本による検定を選ぶと、"配列1"と"配列2"に各々の集団を入れることになります。ところが、それぞれの欄に入れる集団の順番を入れ替えると両側有意確率が.05以下だったものが、.05以上になってしまい、有意差の有無の結果が間逆になってしまいます。

分析の概要は以下のとおりです。
（Ｆ検定で等分散は確認済み）

標本１：
火曜日を除外した某先物の寄値-引値の価格差（デイトレードの成績）
サンプル数→489個　（期間'00-'07年。母集団のサンプルは1970個）
平均値：647

標本２：
火曜日だけのデイトレ成績
サンプル数→88個　（期間'00-'07年。母集団のサンプルは1970個）
平均値:3215

２つの集団の平均差：2568
******************************
分析結果にみられる矛盾

>>>>>>>[標本1]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した２標本による検定
かよう以外かよう
平均646.88444833214.899617
分散201365586.2157505681.3
観測数48988
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t -3.178472095
P(T<=t) 片側0.000780042
t 境界値片側1.647508725
P(T<=t) 両側0.001560084
t 境界値両側1.964099283

>>>>>>>>[標本2]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した２標本による検定

かようかよう以外
平均3214.899617646.8844483
分散157505681.3201365586.2
観測数88489
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t 9.38710200484845E-06（質問者が換算→0.00094%）
P(T<=t) 片側0.499996257
t 境界値片側1.647508725
P(T<=t) 両側0.999992514
t 境界値両側1.964099283

************************
　以上のようにT値のあたい自体もかわってしまうのです。本で計算式を調べても違いは出ないはずなのに（統計初心者です。まちがってたらゴメンナサイ）どうしてでしょうか。サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。おそらく右側検定とか、左側検定とかの概念と関係しているのかもしれませんが、本やネットで調べても判然としません。

　ちなみに月、火、水、木、金と曜日別に成績をわけ、SPSSで一元配置の分散分析(ANOVA)、Welch検定, Brown-Forsythe検定, ボンフェローニの多重比較表でも確認したところ、曜日間に有意差はみられませんでした。

　どうしてエクセルでは、配列の順番により結果が変化するのか、どなたさまかぜひ教えてください。統計初学者なので、珍妙なことを申し上げてるかもしれませんが寛大なご教示のほどよろしくお願いいたします。

backs · Accepted Answer

結論を先にいうと、「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。たぶん、それで配列を換えても同じ結果が得られるはずです。

Excel2003では「仮説平均との差異」と書かれていますが、全然、イミガワカラン。試しにヘルプを読んでみると、

[仮説平均との差異] ボックス
標本の平均値の変動として使う数値を入力します。0 (ゼロ) は、標本の仮説平均が等しいことを示します。

？？？　あきれて考える気すら失せます(^_^;)

>　2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます

サンプル数とサンプルサイズの用語を区別して使うようにしたほうがよいです。2群というのは独立2標本という意味で、この場合の標本数は2です。そして標本の大きさは各群のデータ数です。

2群のサンプルサイズは異なっていても問題は特にありません。ただ、サンプルサイズが大きいと実際には大した差ではないのに有意差が認められてしまいます。詳しくはhttp://shiriuskun.srv7.biz/toukei_hosoku/samplesize_pchi.htmを参照のこと。

backs · Answer

ちょっとくどいようですが、、、正確に計算してみると（有効数字桁数を上げてみると）、Excelが随分とよろしくないことが分かります。

# Excelの場合
t = 2.059250249
d.f. = 143
p = 0.04128438

#Rの場合
t =  2.05921537 
d.f. =  142.599820 
p =  0.0412928844

backs · Answer

まず「等分散を仮定した2標本による検定」を行っていますが、今回のデータはウェルチの検定（等分散性を仮定しない場合に適用されるもの）を行うべきです。というか、実はいかなる場合においてもウェルチの検定を用いた方が良いのです（少し難しい話ですがhttp://aoki2.si.gunma-u.ac.jp/lecture/BF/index.htmlを参照）。

それから、私もExcelで同じように「等分散を仮定した2標本による検定」をやってみましたが、どうやら今回の場合はExcelのバグではなくて、質問者さんの操作ミスだと思います。配列を入れ換えても、どちらもp=0.060766998になるはずです。

ただし、このExcelの分析ツールで求めたp値はまるで精度が悪い。「等分散を仮定した2標本による検定」をRでやってみた結果と比べると次のようになります。

　p=0.060766998（Excelの場合）
　p=0.060773086（Rの場合）

ウェルチの検定（Excelでは分散が等しくないと仮定した2標本による検定）を両者でやってみると次のようになります。Excelでは自由度が小数点ではない。。。

　p=0.04128438（Excel）　d.f.=143
　p=0.0412943758（R）　d.f.=142.6

backs · Answer

私も例データを用いてExcelで配列の順番を入れ換えて試してみましたが、配列を入れ換えても問題なく実行できましたね。ただExcelはバグが多いので、なんらかの原因で（たとえ質問者さんの操作方法が正しくても）正しい値を返してくれないという可能性はあります。要するに「Excelは使うな」ということですね(^_^;)

>　t 9.38710200484845E-06（質問者が換算→0.00094%）

0.0000093と「表記」するべきでパーセントに「換算」するのはN.G.です。細かいことですが。

>　サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。

そのような必要は全くありません。もしそんなソフトウェアがあったら使う価値はありません。

>　右側検定とか、左側検定とか

両側検定か片側検定の2つあります。右側とか左側というものはありません。

統計解析 相場分析 Ｔ-検定 エクセル SPSS

結論を先にいうと、「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。

この回答への補足

ちょっとくどいようですが、、、正確に計算してみると（有効数字桁数を上げてみると）、Excelが随分とよろしくないことが分かります。

この回答への補足

まず「等分散を仮定した2標本による検定」を行っていますが、今回のデータはウェルチの検定（等分散性を仮定しない場合に適用されるもの）を行うべきです。

この回答への補足

私も例データを用いてExcelで配列の順番を入れ換えて試してみましたが、配列を入れ換えても問題なく実行できましたね。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

統計解析　相場分析　Ｔ-検定　エクセル　SPSS