標本が大きくなると帰無仮説はほとんど確実に棄却される、ということが本に書かれていたのですが本当ですか

締切済

質問者：b093965
質問日時：2017/10/21 14:43
回答数：7件

標本が大きくなると帰無仮説はほとんど確実に棄却される、ということが本に書かれていたのですが本当ですか？

てっきり、
実験の対象を固定して何回も実験をすると有意な差が顕れてくる(なぜなら連続的な値であれば、ぴったり同じということはあり得なくて、試行をたくさん繰り返せばその差が検出されてしまうから)、
ということだと思っていたのですが、
そうではなく被験者の数を増やすにつれて、ということでした。

標本を大きくすれば偶然の誤差は均されて、帰無仮説が不当に棄却されることはあまりないと(直感的には)思うのですがどうでしょうか？

(『実践としての統計学』という本です)

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (7件)

最新から表示
回答順に表示

No.7

回答者： kamiyasiro
回答日時：2017/10/24 23:05

#3です。

なんか、水掛け論になりそうですね。

佐伯先生、松原先生がおっしゃりたいのは、
Rで書けば、次のようなことかと思います。

全く同じシチュエーションの検定を
nを増やしてやっているだけです。
n＝10のとき、0.9263だったp値が
n＝10000になると、なんと十のマイナス16乗のオーダーにまで
小さくなります。
対立仮説？関係ありません。ここに示している結果が全てです。

> x <- rnorm(10)
> t.test(x,mu=0.1)

One Sample t-test

data: x
t = -0.0952, df = 9, p-value = 0.9263
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.4315084 0.5885952
sample estimates:
mean of x
0.07854338

>
> x <- rnorm(100)
> t.test(x,mu=0.1)

One Sample t-test

data: x
t = -1.0721, df = 99, p-value = 0.2863
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.1908720 0.1868122
sample estimates:
mean of x
-0.002029917

>
> x <- rnorm(1000)
> t.test(x,mu=0.1)

One Sample t-test

data: x
t = -3.1545, df = 999, p-value = 0.001656
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.06167623 0.06233227
sample estimates:
mean of x
0.0003280188

>
> x <- rnorm(10000)
> t.test(x,mu=0.1)

One Sample t-test

data: x
t = -8.9177, df = 9999, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.00814217 0.03083227
sample estimates:
mean of x
0.01134505

分かっている人にだけ、分かってもらえれば良いです。

- 3
- 件

通報する

No.6

回答者： Chicago243
回答日時：2017/10/24 15:02

＞標本が大きくなると帰無仮説はほとんど確実に棄却される

これはその対立仮説がただしい場合に限ると思います。たとえばある高校の三年生の男子の出席番号の奇数の人のグループと偶数の人のグループで身長（でも体重でも血液中の赤血球の数でもなんでもいいけど）を比べた場合どうでしょう。高校を１校だけじゃなくその県の高校、更に日本全国の高校と範囲を広げていっても、有意差は出ないでしょう。

また帰無仮説を棄却する有意水準は５％でないといけない理由もありません。検出力が高ければ１％でも０．１％でももっと小さくてもいいはずです。

確かに微妙な差がある場合もサンプル数が多くなると検出力が上がるので有意差が出るでしょう。ただ実際は数値をともなう検定ならばその差がほんとに意味のあるものかも評価の対象になるものだと思います。

たとえば、２台のお菓子をつくる機械がある工場に導入されたとします。それぞれの機械をつかってできたお菓子の重さを比べてた場合百万個のサンプリングで有意差がでて、それぞれの機械でのおもさが１gと１．００１gだったとします。会社の規格では１±０．０５gであれば良いとされているなら、この２つの機械の差は論じるに及ばないといえます。

- 0
- 件

通報する

No.5

回答者： kamiyasiro
回答日時：2017/10/22 12:22

#3です。

#4で、検出力が無限大になると書きましたが、
それは間違いです。
「限りなく１に漸近する」と訂正させて下さい。

- 0
- 件

通報する

No.4

回答者： kamiyasiro
回答日時：2017/10/22 08:01

#3です。

棄却域＝裾野の面積の５％は、そのままです。
データサイズが大きくなると、平均値の分布のσが小さくなるので、
その5％点(境界線)が、ｎ増しと共にどんどん内側に寄っていくのです。
だから、些細な差でも有意になって、過学習が起きるのです。

ぼんやり者の誤り、第二種の過誤はご存知ですか。
それをβとすると、１－βを検出力と言います。

実は、α＝５％は一定でも、
βは０に近づいていき、
検出力が無限大になるというのが、
過学習の原因であり、検定が破綻する理由なのです。

検出力については、
https://bellcurve.jp/statistics/course/12767.html

リンク先の図において、
ｎ増しを行うと、
青い線も、オレンジの線も、
位置はそのままで(平均値はそのままで)、
分布の幅が小さくなるので、
もし、二つの山が極めて近くても、
有意な差があるように見えます。

A/Bテスト＝一元配置の分散分析の誤用例

https://japan.cnet.com/article/35034996/

『サイト上では日ごろからA/Bテストを実施し、
得られたデータをサービスや機能に反映している。
たとえば、全体のうち5％のユーザーだけ検索窓の
縦幅を22ピクセルから28ピクセルに広げる。
一見するとほとんど違いが見られないが、
これだけ小さな変化でも検索連動型広告の売上げが
0.64％（この当時で4億8000万円）上がるなど、
大きな影響があるのだという。』

こんな、大量のｎ数でテストすると、0.64％という
誤差に埋もれるような些細な差でも有意になります。
これは、「過学習」の典型例です。

「Yの付く会社」でも、こんなことを言うのですから、
東大出版会から出ている高名な統計学者の書いた本に
平然とウソだと言う人がいても、責められません。

- 0
- 件

通報する

No.3

回答者： kamiyasiro
回答日時：2017/10/21 19:18

企業でSQCを推進する立場にある者です。

最近ではデータサイエンスを推進しています。

ご質問者は、最初、多重比較のことだと思われたのですね。

「ビッグデータでは、古典的検定は破綻する」という
ご質問は、本当です。言い切れます。
p値が通用しないというのは常識です。

平均値の差の検定で考えてみましょう。
n＝10程度のサンプリングで行います。

n＝10程度のサンプリングを、何度も何度も行うと、
毎回の平均値の分布は、
平均はμ、標準偏差は、σ／√nに従います。

このとき、たまたま得られた今回のサンプルの平均が、
この分布の95％の範囲なら、当然起こるべきして起きたと考え、
帰無仮説は棄却されませんが、
この分布の裾野の5％の領域になったら、
極めてレアなことが起きたと考え、棄却します。

この5％というのは、別名危険率と言い、
本当は同じなのに、違っていると言ってしまう、
あわて者の誤り、第１種の過誤ですよね。
20回に１回間違えるのだから、
20回以上同じ群について検定すれば、
絶対間違えますよね。
これが最初想定された多重比較です。

さて、今度は、ビッグデータについて考えてみましょう。
n数が増すと、先ほどの分布は、σ／√nに従って、
どんどん狭い分布を取るようになります。
先ほどは、まあまあ広がった分布だったので、
検定対象は95％の範囲だったのが、
やがて95％の範囲外になり有意になってしまいます。
nが巨大になると、どんな些細な差でも有意になるのです。
テキストに書いてあるように１万もあれば、常に有意になります。

データサイエンスでは、
この理由から、仮説検定は行いません。

データサイエンスでなくても、医学・薬学・生物学系では、
このように有意になるのを避けるため、
「効果量」という数値を論文に書かないと査読が通りません。

データサイエンス本に「仮説検定」が出ていたり、
データサイエンティストとか名乗りながら、
「仮説が大事」と言っている人は、
本当はデータサイエンスを知らない人かもしれません。

- 3
- 件

通報する

この回答へのお礼

ありがとうございます。

nが大きくなると小さな差でも有意になる、というのは理解できました。
しかし、有意になる程の差が出る確率が5%、というのはnの値に関係なく一定だとしか思えません。(95%の範囲を超えたかどうかで有意かどうかを定義しているので)

通報する

お礼日時：2017/10/21 23:33

No.2

回答者： yhr2
回答日時：2017/10/21 15:20

＞標本が大きくなると帰無仮説はほとんど確実に棄却される、ということが本に書かれていたのですが本当ですか？

「本当です」と言い切るにはいろいろ条件が付きますが、「検定」というものが何をしているかが分かれば、「そうなりそう」「そうなりやすい」ということは理解できると思います。

通常、母集団の「平均」や「標準偏差」は不明で、「標本」から推定することになります。（全有権者の「安倍政権支持率」が不明なので、1000人とか2000人に「世論調査」して推定する）
これは、「標本が大きくなる」つまり「たくさんの標本を取ってくる」ほど精度よく、つまり「標準偏差」を小さく推定できることになるのは分かりますよね？（究極では、有権者全員に聞けば、ぴったり標準偏差ゼロで確定できる）

通常の検定では、帰無仮説は「差はない」という設定にします。つまり「平均値」も「標準偏差」も「同じ」とするのが帰無仮説です。（「差がある」と設定すると、どう差があるのかを定量的に決めないと検定ができなくなるので、通常はそういう帰無仮説にはしません）
標本全体から推定した「平均値」も「標準偏差」に対して、その中の特定の標本の「平均値」が推定した平均値に対してどのあたりにあるか、というのが検定です。推定した「標準偏差」よりも大きく外れていれば「棄却」（通常、有意水準5％だと標準偏差の 1.96倍）、それほど外れていなければ「平均値は同じらしい」つまり「帰無仮説は成立（棄却できない）」ということになります。
ここで、「標本が大きくなる」つまり「たくさんの標本を取ってくる」と、一般に「標準偏差」は小さくなりますから、そこから外れる可能性は高くなります。つまり、「帰無仮説が棄却されやすくなる」ということ。

要するに、標本サイズと、それによって推定される母集団の標準偏差の関係、ということです。