2つの母集団の平均差に有意差があるかを調べるためエクセルでT検定をしましたところ、ある異変に気づきました。
メニューの「ツール>分析ツール」で等分散を仮定した2標本による検定を選ぶと、"配列1"と"配列2"に各々の集団を入れることになります。ところが、それぞれの欄に入れる集団の順番を入れ替えると両側有意確率が.05以下だったものが、.05以上になってしまい、有意差の有無の結果が間逆になってしまいます。
分析の概要は以下のとおりです。
(F検定で等分散は確認済み)
標本1:
火曜日を除外した某先物の寄値-引値の価格差(デイトレードの成績)
サンプル数→489個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:647
標本2:
火曜日だけのデイトレ成績
サンプル数→88個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:3215
2つの集団の平均差:2568
******************************
分析結果にみられる矛盾
>>>>>>>[標本1]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かよう以外かよう
平均646.88444833214.899617
分散201365586.2157505681.3
観測数48988
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t -3.178472095
P(T<=t) 片側0.000780042
t 境界値 片側1.647508725
P(T<=t) 両側0.001560084
t 境界値 両側1.964099283
>>>>>>>>[標本2]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かようかよう以外
平均3214.899617646.8844483
分散157505681.3201365586.2
観測数88489
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t 9.38710200484845E-06(質問者が換算→0.00094%)
P(T<=t) 片側0.499996257
t 境界値 片側1.647508725
P(T<=t) 両側0.999992514
t 境界値 両側1.964099283
************************
以上のようにT値のあたい自体もかわってしまうのです。本で計算式を調べても違いは出ないはずなのに(統計初心者です。まちがってたらゴメンナサイ)どうしてでしょうか。サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。おそらく右側検定とか、左側検定とかの概念と関係しているのかもしれませんが、本やネットで調べても判然としません。
ちなみに月、火、水、木、金と曜日別に成績をわけ、SPSSで一元配置の分散分析(ANOVA)、Welch検定, Brown-Forsythe検定, ボンフェローニの多重比較表でも確認したところ、曜日間に有意差はみられませんでした。
どうしてエクセルでは、配列の順番により結果が変化するのか、どなたさまかぜひ教えてください。統計初学者なので、珍妙なことを申し上げてるかもしれませんが寛大なご教示のほどよろしくお願いいたします。
No.4ベストアンサー
- 回答日時:
結論を先にいうと、「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。
たぶん、それで配列を換えても同じ結果が得られるはずです。Excel2003では「仮説平均との差異」と書かれていますが、全然、イミガワカラン。試しにヘルプを読んでみると、
[仮説平均との差異] ボックス
標本の平均値の変動として使う数値を入力します。0 (ゼロ) は、標本の仮説平均が等しいことを示します。
??? あきれて考える気すら失せます(^_^;)
> 2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます
サンプル数とサンプルサイズの用語を区別して使うようにしたほうがよいです。2群というのは独立2標本という意味で、この場合の標本数は2です。そして標本の大きさは各群のデータ数です。
2群のサンプルサイズは異なっていても問題は特にありません。ただ、サンプルサイズが大きいと実際には大した差ではないのに有意差が認められてしまいます。詳しくはhttp://shiriuskun.srv7.biz/toukei_hosoku/samples …を参照のこと。
この回答への補足
用語のご指摘の件ありがとうございます。たすかります。
>「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。たぶん、それで配列を換えても同じ結果が得られるはずです。
たしかにこの対処法で同じ結果が得られました。ですけども僭越ながら質問させていただきますと(初学者特有の質問攻めでスミマセン(^^;)、
統計の教科書(エクセルで学ぶ統計解析、涌井著、p151,153)ではT値を求める公式は(Excel流で書きますと)
= (A群の平均-B群の平均)/ SQRT( A群の不偏分散 * A群の不偏分散/ Aの標本の大きさ + B群の不偏分散 * B群の不偏分散/ B群の標本の大きさ )
ですよね。(http://ja.wikipedia.org/wiki/T%E6%A4%9C%E5%AE%9A)で公式をコピペしようとしましたができませんでした。手書きで見づらくてすみません)
つまり2群の平均差はT値を計算するうえでは不可欠な要素のはずだという気がするのですが、いかがなのでしょうか。(ちょっと混乱してます)ちなみに回答ANO.2でアップロードしたデータをもとに、上記公式でセル関数をつかって計算しましたがT値が0.000156442でした。分析ツールで計算した矛盾した両値とも異なりますし、backさまに計算していただいた「平均差の欄」を空欄にした計算値である2.05921537とも異なりました。(--;) ちなみにSPSSが算出した不等分散のT値は1.981でした。Backsさんの計算値に近いですよね。(厳密には遠いんでしょうけど)
なんだか不毛な質問群につきあわせてしまってすみません。結論から申しあげますと、分析はすべてSPSSですることにします。統計結果の解釈には深い素養が必要な事を実感させられました。
初心者向けの本を5,6冊読んだだけで実務(予測モデルの構築と検定)に活かせるようになるまでには遥かな道のりがありそうですね。数学の素養も不可欠そうですし。
何はもあれ、偶然の産物によるゲタを履かされた成績の予測モデルをもとに相場を張りたくないものです。(笑)
最後までお付合いいただきありがとうございました。m(__)m
No.3
- 回答日時:
ちょっとくどいようですが、、、正確に計算してみると(有効数字桁数を上げてみると)、Excelが随分とよろしくないことが分かります。
# Excelの場合
t = 2.059250249
d.f. = 143
p = 0.04128438
#Rの場合
t = 2.05921537
d.f. = 142.599820
p = 0.0412928844
この回答への補足
backsさま
いいえ、回答をエントリしていただけるだけでも光栄の至りです。もしよろしければ回答no.2に書いた小生の補足をお読みいただけませんでしょうか。どうぞよろしくお願いいたします。
No.2
- 回答日時:
まず「等分散を仮定した2標本による検定」を行っていますが、今回のデータはウェルチの検定(等分散性を仮定しない場合に適用されるもの)を行うべきです。
というか、実はいかなる場合においてもウェルチの検定を用いた方が良いのです(少し難しい話ですがhttp://aoki2.si.gunma-u.ac.jp/lecture/BF/index.h …を参照)。それから、私もExcelで同じように「等分散を仮定した2標本による検定」をやってみましたが、どうやら今回の場合はExcelのバグではなくて、質問者さんの操作ミスだと思います。配列を入れ換えても、どちらもp=0.060766998になるはずです。
ただし、このExcelの分析ツールで求めたp値はまるで精度が悪い。「等分散を仮定した2標本による検定」をRでやってみた結果と比べると次のようになります。
p=0.060766998(Excelの場合)
p=0.060773086(Rの場合)
ウェルチの検定(Excelでは分散が等しくないと仮定した2標本による検定)を両者でやってみると次のようになります。Excelでは自由度が小数点ではない。。。
p=0.04128438(Excel) d.f.=143
p=0.0412943758(R) d.f.=142.6
この回答への補足
backsさま
参考urlをお示しいただきありがとうございます。たしかに難しすぎて(小生は数学が得意ではありませんで)理由はよくわかりませんでしたがウェルチ検定の優位性がわかって助かりました。(ただ「まとめ」の部分にありました、2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます)
訂正ですが、私の使用したのはExcel2002でした。失礼致しました。
貴重なお時間をすでにだいぶ割いていただき非常に恐縮ですが、もしよろしければ、以下urlに私の分析手順を示した.jpg画像で見ていただけませんでしょうか。
http://www.megaupload.com/jp/?d=XU94JF0C
操作手順を画像にしてエクセルに添付しただけなので、わたしの手順に間違いがあれば一目で確認できるかと存じます。その間違いをご指摘いただければ大変たすかります。
一応、自分でエクセルの統計手順の本を数冊確認しましたが、教科書どおりに操作をしているつもりなので、どうしても間違いが発見できません。あつかましいお願いですので、もしご面倒でしたら流していただいても結構でございます。
No.1
- 回答日時:
私も例データを用いてExcelで配列の順番を入れ換えて試してみましたが、配列を入れ換えても問題なく実行できましたね。
ただExcelはバグが多いので、なんらかの原因で(たとえ質問者さんの操作方法が正しくても)正しい値を返してくれないという可能性はあります。要するに「Excelは使うな」ということですね(^_^;)> t 9.38710200484845E-06(質問者が換算→0.00094%)
0.0000093と「表記」するべきでパーセントに「換算」するのはN.G.です。細かいことですが。
> サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。
そのような必要は全くありません。もしそんなソフトウェアがあったら使う価値はありません。
> 右側検定とか、左側検定とか
両側検定か片側検定の2つあります。右側とか左側というものはありません。
この回答への補足
backsさん
ご説明ありがとうございました。m(__)m
方々で聞きますがエクセルで統計分析というのは危ないですね(^^;)
Excel2003ではそのようなバグはないだろうとタカを踏んでいたのですが。。。
あとパーセント換算がNGの件もご指摘していただきありがとうございます。
ちなみに上記の分析の元データを以下のリンクにアップロードしておきました。
http://www.megaupload.com/jp/?d=0GWKEH1F
(最初の質問のデータは「火」「月火水目金」にまちがって集団分けしてました。リンク先では「火」「月水目金」という集団にわけています。分析の目的が「成績のいい火曜日だけにトレードした方がいいか」が趣旨でしたので)
こちらで試しても配列かえると有意差について矛盾のある結果があがります。もしご迷惑でございませんでしたならば、小生の分析になんらかの誤りがあるか確認していただけませんでしょうか。もちろんご面倒なようでしたらぜひお構いなく。
やはりSPSSで有意差検定をすることにします。^^
ありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・人生のプチ美学を教えてください!!
- ・10秒目をつむったら…
- ・あなたの習慣について教えてください!!
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・【大喜利】【投稿~9/18】 おとぎ話『桃太郎』の知られざるエピソード
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
検定で出てしまった有意差を認...
-
スミルノフ・グラブス検定の有...
-
母集団の違う2つの平均値の優...
-
割合データの比較
-
効果量のマイナス表示に関して
-
統計(?)
-
有意差が無いことを証明(危険...
-
サンプルサイズの大きく違うF検定
-
t-検定(P<0.05で有意差あり):p...
-
t検定について教えて下さい(E...
-
Mann-Whitney検定を採用できる2...
-
エクセル カイ2乗検定について
-
同等性の検定について
-
統計学のP検定とt検定につい...
-
2群間平均の差の検定 差が“な...
-
SPSS McNemar検定
-
統計:正規分布を仮定するかど...
-
カイ二乗検定とマクネマー検定...
-
統計学 P値
-
カイ2乗検定って何??;;
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
効果量のマイナス表示に関して
-
統計学的に信頼できるサンプル...
-
調査結果は、標準誤差率が何%...
-
母集団の違う2つの平均値の優...
-
p値の計算式
-
統計学のP検定とt検定につい...
-
英語論文に出てくる「independe...
-
サンプルサイズの大きく違うF検定
-
統計のt検定について
-
回帰曲線の有意差の検定
-
検定で出てしまった有意差を認...
-
スミルノフ・グラブス検定の有...
-
Mann-Whitney検定を採用できる2...
-
データの分析方法
-
サンプルサイズが極端に少ない...
-
T検定とMann-WhitneyのU検定の...
-
平均値、標準偏差、変動係数に...
-
何でもかんでもt検定を使うのは...
-
t検定・Χ二乗検定について t...
-
棄却検定と有意点tについて
おすすめ情報