![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?5a7ff87)
2つの母集団の平均差に有意差があるかを調べるためエクセルでT検定をしましたところ、ある異変に気づきました。
メニューの「ツール>分析ツール」で等分散を仮定した2標本による検定を選ぶと、"配列1"と"配列2"に各々の集団を入れることになります。ところが、それぞれの欄に入れる集団の順番を入れ替えると両側有意確率が.05以下だったものが、.05以上になってしまい、有意差の有無の結果が間逆になってしまいます。
分析の概要は以下のとおりです。
(F検定で等分散は確認済み)
標本1:
火曜日を除外した某先物の寄値-引値の価格差(デイトレードの成績)
サンプル数→489個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:647
標本2:
火曜日だけのデイトレ成績
サンプル数→88個 (期間'00-'07年。母集団のサンプルは1970個)
平均値:3215
2つの集団の平均差:2568
******************************
分析結果にみられる矛盾
>>>>>>>[標本1]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かよう以外かよう
平均646.88444833214.899617
分散201365586.2157505681.3
観測数48988
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t -3.178472095
P(T<=t) 片側0.000780042
t 境界値 片側1.647508725
P(T<=t) 両側0.001560084
t 境界値 両側1.964099283
>>>>>>>>[標本2]を配列1にすえた場合<<<<<<<
t-検定 : 等分散を仮定した2標本による検定
かようかよう以外
平均3214.899617646.8844483
分散157505681.3201365586.2
観測数88489
プールされた分散194729391.9
仮説平均との差異2568
自由度575
t 9.38710200484845E-06(質問者が換算→0.00094%)
P(T<=t) 片側0.499996257
t 境界値 片側1.647508725
P(T<=t) 両側0.999992514
t 境界値 両側1.964099283
************************
以上のようにT値のあたい自体もかわってしまうのです。本で計算式を調べても違いは出ないはずなのに(統計初心者です。まちがってたらゴメンナサイ)どうしてでしょうか。サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。おそらく右側検定とか、左側検定とかの概念と関係しているのかもしれませんが、本やネットで調べても判然としません。
ちなみに月、火、水、木、金と曜日別に成績をわけ、SPSSで一元配置の分散分析(ANOVA)、Welch検定, Brown-Forsythe検定, ボンフェローニの多重比較表でも確認したところ、曜日間に有意差はみられませんでした。
どうしてエクセルでは、配列の順番により結果が変化するのか、どなたさまかぜひ教えてください。統計初学者なので、珍妙なことを申し上げてるかもしれませんが寛大なご教示のほどよろしくお願いいたします。
No.4ベストアンサー
- 回答日時:
結論を先にいうと、「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。
たぶん、それで配列を換えても同じ結果が得られるはずです。Excel2003では「仮説平均との差異」と書かれていますが、全然、イミガワカラン。試しにヘルプを読んでみると、
[仮説平均との差異] ボックス
標本の平均値の変動として使う数値を入力します。0 (ゼロ) は、標本の仮説平均が等しいことを示します。
??? あきれて考える気すら失せます(^_^;)
> 2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます
サンプル数とサンプルサイズの用語を区別して使うようにしたほうがよいです。2群というのは独立2標本という意味で、この場合の標本数は2です。そして標本の大きさは各群のデータ数です。
2群のサンプルサイズは異なっていても問題は特にありません。ただ、サンプルサイズが大きいと実際には大した差ではないのに有意差が認められてしまいます。詳しくはhttp://shiriuskun.srv7.biz/toukei_hosoku/samples …を参照のこと。
この回答への補足
用語のご指摘の件ありがとうございます。たすかります。
>「二標本の平均値の差」の欄にはなにも入力せずに実行させてみてください。たぶん、それで配列を換えても同じ結果が得られるはずです。
たしかにこの対処法で同じ結果が得られました。ですけども僭越ながら質問させていただきますと(初学者特有の質問攻めでスミマセン(^^;)、
統計の教科書(エクセルで学ぶ統計解析、涌井著、p151,153)ではT値を求める公式は(Excel流で書きますと)
= (A群の平均-B群の平均)/ SQRT( A群の不偏分散 * A群の不偏分散/ Aの標本の大きさ + B群の不偏分散 * B群の不偏分散/ B群の標本の大きさ )
ですよね。(http://ja.wikipedia.org/wiki/T%E6%A4%9C%E5%AE%9A)で公式をコピペしようとしましたができませんでした。手書きで見づらくてすみません)
つまり2群の平均差はT値を計算するうえでは不可欠な要素のはずだという気がするのですが、いかがなのでしょうか。(ちょっと混乱してます)ちなみに回答ANO.2でアップロードしたデータをもとに、上記公式でセル関数をつかって計算しましたがT値が0.000156442でした。分析ツールで計算した矛盾した両値とも異なりますし、backさまに計算していただいた「平均差の欄」を空欄にした計算値である2.05921537とも異なりました。(--;) ちなみにSPSSが算出した不等分散のT値は1.981でした。Backsさんの計算値に近いですよね。(厳密には遠いんでしょうけど)
なんだか不毛な質問群につきあわせてしまってすみません。結論から申しあげますと、分析はすべてSPSSですることにします。統計結果の解釈には深い素養が必要な事を実感させられました。
初心者向けの本を5,6冊読んだだけで実務(予測モデルの構築と検定)に活かせるようになるまでには遥かな道のりがありそうですね。数学の素養も不可欠そうですし。
何はもあれ、偶然の産物によるゲタを履かされた成績の予測モデルをもとに相場を張りたくないものです。(笑)
最後までお付合いいただきありがとうございました。m(__)m
No.3
- 回答日時:
ちょっとくどいようですが、、、正確に計算してみると(有効数字桁数を上げてみると)、Excelが随分とよろしくないことが分かります。
# Excelの場合
t = 2.059250249
d.f. = 143
p = 0.04128438
#Rの場合
t = 2.05921537
d.f. = 142.599820
p = 0.0412928844
この回答への補足
backsさま
いいえ、回答をエントリしていただけるだけでも光栄の至りです。もしよろしければ回答no.2に書いた小生の補足をお読みいただけませんでしょうか。どうぞよろしくお願いいたします。
No.2
- 回答日時:
まず「等分散を仮定した2標本による検定」を行っていますが、今回のデータはウェルチの検定(等分散性を仮定しない場合に適用されるもの)を行うべきです。
というか、実はいかなる場合においてもウェルチの検定を用いた方が良いのです(少し難しい話ですがhttp://aoki2.si.gunma-u.ac.jp/lecture/BF/index.h …を参照)。それから、私もExcelで同じように「等分散を仮定した2標本による検定」をやってみましたが、どうやら今回の場合はExcelのバグではなくて、質問者さんの操作ミスだと思います。配列を入れ換えても、どちらもp=0.060766998になるはずです。
ただし、このExcelの分析ツールで求めたp値はまるで精度が悪い。「等分散を仮定した2標本による検定」をRでやってみた結果と比べると次のようになります。
p=0.060766998(Excelの場合)
p=0.060773086(Rの場合)
ウェルチの検定(Excelでは分散が等しくないと仮定した2標本による検定)を両者でやってみると次のようになります。Excelでは自由度が小数点ではない。。。
p=0.04128438(Excel) d.f.=143
p=0.0412943758(R) d.f.=142.6
この回答への補足
backsさま
参考urlをお示しいただきありがとうございます。たしかに難しすぎて(小生は数学が得意ではありませんで)理由はよくわかりませんでしたがウェルチ検定の優位性がわかって助かりました。(ただ「まとめ」の部分にありました、2群のサンプル数の数はそろえた方がいいとの記述は気にかかりましたので調べてみます)
訂正ですが、私の使用したのはExcel2002でした。失礼致しました。
貴重なお時間をすでにだいぶ割いていただき非常に恐縮ですが、もしよろしければ、以下urlに私の分析手順を示した.jpg画像で見ていただけませんでしょうか。
http://www.megaupload.com/jp/?d=XU94JF0C
操作手順を画像にしてエクセルに添付しただけなので、わたしの手順に間違いがあれば一目で確認できるかと存じます。その間違いをご指摘いただければ大変たすかります。
一応、自分でエクセルの統計手順の本を数冊確認しましたが、教科書どおりに操作をしているつもりなので、どうしても間違いが発見できません。あつかましいお願いですので、もしご面倒でしたら流していただいても結構でございます。
No.1
- 回答日時:
私も例データを用いてExcelで配列の順番を入れ換えて試してみましたが、配列を入れ換えても問題なく実行できましたね。
ただExcelはバグが多いので、なんらかの原因で(たとえ質問者さんの操作方法が正しくても)正しい値を返してくれないという可能性はあります。要するに「Excelは使うな」ということですね(^_^;)> t 9.38710200484845E-06(質問者が換算→0.00094%)
0.0000093と「表記」するべきでパーセントに「換算」するのはN.G.です。細かいことですが。
> サンプル数もしくは平均値の大きさによって、配列1,2に入れる順番を変えるべきなんでしょうか。
そのような必要は全くありません。もしそんなソフトウェアがあったら使う価値はありません。
> 右側検定とか、左側検定とか
両側検定か片側検定の2つあります。右側とか左側というものはありません。
この回答への補足
backsさん
ご説明ありがとうございました。m(__)m
方々で聞きますがエクセルで統計分析というのは危ないですね(^^;)
Excel2003ではそのようなバグはないだろうとタカを踏んでいたのですが。。。
あとパーセント換算がNGの件もご指摘していただきありがとうございます。
ちなみに上記の分析の元データを以下のリンクにアップロードしておきました。
http://www.megaupload.com/jp/?d=0GWKEH1F
(最初の質問のデータは「火」「月火水目金」にまちがって集団分けしてました。リンク先では「火」「月水目金」という集団にわけています。分析の目的が「成績のいい火曜日だけにトレードした方がいいか」が趣旨でしたので)
こちらで試しても配列かえると有意差について矛盾のある結果があがります。もしご迷惑でございませんでしたならば、小生の分析になんらかの誤りがあるか確認していただけませんでしょうか。もちろんご面倒なようでしたらぜひお構いなく。
やはりSPSSで有意差検定をすることにします。^^
ありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 統計学 統計学の質問【帰無仮説】 W大学のP学部において、自宅通学者の比率にについて調べたい。 P学部から1 8 2023/05/25 23:28
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 統計学 統計学の問題です よろしくお願いします 区間推定 母集団は正規分布に従い,母分散は σ2 = 112 1 2023/01/31 18:57
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 統計学の質問【帰無仮説】 高校の新学習指導要領では、統計的仮説検定の基本的な考え方が必修単元となった 5 2023/05/23 21:00
- 統計学 統計学の問題です。よろしくお願いします。 ある部品の重量は正規分布に従うとされており,過去の経験から 1 2023/01/19 03:36
- 統計学 統計学の質問【帰無仮説】 昨年度のA大学卒業者の平均初任給(月額・万円)について調べるために、昨年度 1 2023/05/25 23:30
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
効果量のマイナス表示に関して
-
T検定とMann-WhitneyのU検定の...
-
サンプルサイズが極端に少ない...
-
サンプルサイズの大きく違うF検定
-
2群間平均の差の検定 差が“な...
-
Mann-Whitney検定を採用できる2...
-
t検定での「対応のある・ない」...
-
統計のt検定について
-
調査結果は、標準誤差率が何%...
-
エクセルを用いての有意差の求...
-
ROC曲線のAUCの分析方法
-
カイ2乗検定って何??;;
-
アンケート結果の有意差の求め...
-
実測値と予測値の同異の検定
-
t検定
-
同等性の検定について
-
エクセルでのカイ二乗検定の仕...
-
SPSSで次のようなデータについ...
-
統計的仮説検定で、有意差の大...
-
エクセルのTTESTの使い方
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
効果量のマイナス表示に関して
-
調査結果は、標準誤差率が何%...
-
統計学的に信頼できるサンプル...
-
T検定とMann-WhitneyのU検定の...
-
p値の計算式
-
サンプルサイズの大きく違うF検定
-
データの分析方法
-
有意差が無いことを証明(危険...
-
サンプルサイズが極端に少ない...
-
統計学のP検定とt検定につい...
-
2群間平均の差の検定 差が“な...
-
母集団の違う2つの平均値の優...
-
スミルノフ・グラブス検定の有...
-
英語論文に出てくる「independe...
-
Wilcoxon符号付順位和...
-
統計のt検定について
-
SPSS McNemar検定
-
Mann-WhitneyのU検定をspss統計...
-
カイ2乗検定って何??;;
-
回帰曲線の有意差の検定
おすすめ情報