標本が大きくなると帰無仮説はほとんど確実に棄却される、ということが本に書かれていたのですが本当ですか?
てっきり、
実験の対象を固定して何回も実験をすると有意な差が顕れてくる(なぜなら連続的な値であれば、ぴったり同じということはあり得なくて、試行をたくさん繰り返せばその差が検出されてしまうから)、
ということだと思っていたのですが、
そうではなく被験者の数を増やすにつれて、ということでした。
標本を大きくすれば偶然の誤差は均されて、帰無仮説が不当に棄却されることはあまりないと(直感的には)思うのですがどうでしょうか?
(『実践としての統計学』という本です)
A 回答 (7件)
- 最新から表示
- 回答順に表示
No.7
- 回答日時:
#3です。
なんか、水掛け論になりそうですね。
佐伯先生、松原先生がおっしゃりたいのは、
Rで書けば、次のようなことかと思います。
全く同じシチュエーションの検定を
nを増やしてやっているだけです。
n=10のとき、0.9263だったp値が
n=10000になると、なんと十のマイナス16乗のオーダーにまで
小さくなります。
対立仮説?関係ありません。ここに示している結果が全てです。
> x <- rnorm(10)
> t.test(x,mu=0.1)
One Sample t-test
data: x
t = -0.0952, df = 9, p-value = 0.9263
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.4315084 0.5885952
sample estimates:
mean of x
0.07854338
>
> x <- rnorm(100)
> t.test(x,mu=0.1)
One Sample t-test
data: x
t = -1.0721, df = 99, p-value = 0.2863
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.1908720 0.1868122
sample estimates:
mean of x
-0.002029917
>
> x <- rnorm(1000)
> t.test(x,mu=0.1)
One Sample t-test
data: x
t = -3.1545, df = 999, p-value = 0.001656
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.06167623 0.06233227
sample estimates:
mean of x
0.0003280188
>
> x <- rnorm(10000)
> t.test(x,mu=0.1)
One Sample t-test
data: x
t = -8.9177, df = 9999, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0.1
95 percent confidence interval:
-0.00814217 0.03083227
sample estimates:
mean of x
0.01134505
分かっている人にだけ、分かってもらえれば良いです。
No.6
- 回答日時:
>標本が大きくなると帰無仮説はほとんど確実に棄却される
これはその対立仮説がただしい場合に限ると思います。たとえばある高校の三年生の男子の出席番号の奇数の人のグループと偶数の人のグループで身長(でも体重でも血液中の赤血球の数でもなんでもいいけど)を比べた場合どうでしょう。高校を1校だけじゃなくその県の高校、更に日本全国の高校と範囲を広げていっても、有意差は出ないでしょう。
また帰無仮説を棄却する有意水準は5%でないといけない理由もありません。検出力が高ければ1%でも0.1%でももっと小さくてもいいはずです。
確かに微妙な差がある場合もサンプル数が多くなると検出力が上がるので有意差が出るでしょう。ただ実際は数値をともなう検定ならばその差がほんとに意味のあるものかも評価の対象になるものだと思います。
たとえば、2台のお菓子をつくる機械がある工場に導入されたとします。それぞれの機械をつかってできたお菓子の重さを比べてた場合百万個のサンプリングで有意差がでて、それぞれの機械でのおもさが1gと1.001gだったとします。会社の規格では1±0.05gであれば良いとされているなら、この2つの機械の差は論じるに及ばないといえます。
No.4
- 回答日時:
#3です。
棄却域=裾野の面積の5%は、そのままです。
データサイズが大きくなると、平均値の分布のσが小さくなるので、
その5%点(境界線)が、n増しと共にどんどん内側に寄っていくのです。
だから、些細な差でも有意になって、過学習が起きるのです。
ぼんやり者の誤り、第二種の過誤はご存知ですか。
それをβとすると、1-βを検出力と言います。
実は、α=5%は一定でも、
βは0に近づいていき、
検出力が無限大になるというのが、
過学習の原因であり、検定が破綻する理由なのです。
検出力については、
https://bellcurve.jp/statistics/course/12767.html
リンク先の図において、
n増しを行うと、
青い線も、オレンジの線も、
位置はそのままで(平均値はそのままで)、
分布の幅が小さくなるので、
もし、二つの山が極めて近くても、
有意な差があるように見えます。
A/Bテスト=一元配置の分散分析の誤用例
https://japan.cnet.com/article/35034996/
『サイト上では日ごろからA/Bテストを実施し、
得られたデータをサービスや機能に反映している。
たとえば、全体のうち5%のユーザーだけ検索窓の
縦幅を22ピクセルから28ピクセルに広げる。
一見するとほとんど違いが見られないが、
これだけ小さな変化でも検索連動型広告の売上げが
0.64%(この当時で4億8000万円)上がるなど、
大きな影響があるのだという。』
こんな、大量のn数でテストすると、0.64%という
誤差に埋もれるような些細な差でも有意になります。
これは、「過学習」の典型例です。
「Yの付く会社」でも、こんなことを言うのですから、
東大出版会から出ている高名な統計学者の書いた本に
平然とウソだと言う人がいても、責められません。
No.3
- 回答日時:
企業でSQCを推進する立場にある者です。
最近ではデータサイエンスを推進しています。
ご質問者は、最初、多重比較のことだと思われたのですね。
「ビッグデータでは、古典的検定は破綻する」という
ご質問は、本当です。言い切れます。
p値が通用しないというのは常識です。
平均値の差の検定で考えてみましょう。
n=10程度のサンプリングで行います。
n=10程度のサンプリングを、何度も何度も行うと、
毎回の平均値の分布は、
平均はμ、標準偏差は、σ/√nに従います。
このとき、たまたま得られた今回のサンプルの平均が、
この分布の95%の範囲なら、当然起こるべきして起きたと考え、
帰無仮説は棄却されませんが、
この分布の裾野の5%の領域になったら、
極めてレアなことが起きたと考え、棄却します。
この5%というのは、別名危険率と言い、
本当は同じなのに、違っていると言ってしまう、
あわて者の誤り、第1種の過誤ですよね。
20回に1回間違えるのだから、
20回以上同じ群について検定すれば、
絶対間違えますよね。
これが最初想定された多重比較です。
さて、今度は、ビッグデータについて考えてみましょう。
n数が増すと、先ほどの分布は、σ/√nに従って、
どんどん狭い分布を取るようになります。
先ほどは、まあまあ広がった分布だったので、
検定対象は95%の範囲だったのが、
やがて95%の範囲外になり有意になってしまいます。
nが巨大になると、どんな些細な差でも有意になるのです。
テキストに書いてあるように1万もあれば、常に有意になります。
データサイエンスでは、
この理由から、仮説検定は行いません。
データサイエンスでなくても、医学・薬学・生物学系では、
このように有意になるのを避けるため、
「効果量」という数値を論文に書かないと査読が通りません。
データサイエンス本に「仮説検定」が出ていたり、
データサイエンティストとか名乗りながら、
「仮説が大事」と言っている人は、
本当はデータサイエンスを知らない人かもしれません。
ありがとうございます。
nが大きくなると小さな差でも有意になる、というのは理解できました。
しかし、有意になる程の差が出る確率が5%、というのはnの値に関係なく一定だとしか思えません。(95%の範囲を超えたかどうかで有意かどうかを定義しているので)
No.2
- 回答日時:
>標本が大きくなると帰無仮説はほとんど確実に棄却される、ということが本に書かれていたのですが本当ですか?
「本当です」と言い切るにはいろいろ条件が付きますが、「検定」というものが何をしているかが分かれば、「そうなりそう」「そうなりやすい」ということは理解できると思います。
通常、母集団の「平均」や「標準偏差」は不明で、「標本」から推定することになります。(全有権者の「安倍政権支持率」が不明なので、1000人とか2000人に「世論調査」して推定する)
これは、「標本が大きくなる」つまり「たくさんの標本を取ってくる」ほど精度よく、つまり「標準偏差」を小さく推定できることになるのは分かりますよね?(究極では、有権者全員に聞けば、ぴったり標準偏差ゼロで確定できる)
通常の検定では、帰無仮説は「差はない」という設定にします。つまり「平均値」も「標準偏差」も「同じ」とするのが帰無仮説です。(「差がある」と設定すると、どう差があるのかを定量的に決めないと検定ができなくなるので、通常はそういう帰無仮説にはしません)
標本全体から推定した「平均値」も「標準偏差」に対して、その中の特定の標本の「平均値」が推定した平均値に対してどのあたりにあるか、というのが検定です。推定した「標準偏差」よりも大きく外れていれば「棄却」(通常、有意水準5%だと標準偏差の 1.96倍)、それほど外れていなければ「平均値は同じらしい」つまり「帰無仮説は成立(棄却できない)」ということになります。
ここで、「標本が大きくなる」つまり「たくさんの標本を取ってくる」と、一般に「標準偏差」は小さくなりますから、そこから外れる可能性は高くなります。つまり、「帰無仮説が棄却されやすくなる」ということ。
要するに、標本サイズと、それによって推定される母集団の標準偏差の関係、ということです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学の質問【帰無仮説】 高校の新学習指導要領では、統計的仮説検定の基本的な考え方が必修単元となった 5 2023/05/23 21:00
- 統計学 統計学の質問【帰無仮説】 大学で、現在の在籍者の平均通学時間が60分であるという帰無仮説を、それが6 8 2023/05/23 20:56
- 統計学 統計学の問題です。よろしくお願いします。 ある部品の重量は正規分布に従うとされており,過去の経験から 1 2023/01/19 03:36
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 統計学の質問【帰無仮説】 W大学のP学部において、自宅通学者の比率にについて調べたい。 P学部から1 8 2023/05/25 23:28
- 統計学 統計学の問題です よろしくお願いします 区間推定 母集団は正規分布に従い,母分散は σ2 = 112 1 2023/01/31 18:57
- 統計学 統計学の質問【帰無仮説】 昨年度のA大学卒業者の平均初任給(月額・万円)について調べるために、昨年度 1 2023/05/25 23:30
- 統計学 統計学の質問【帰無仮説】 B大学の卒業生の平均年収について調査するため、100人の卒業生を無作為に選 1 2023/05/25 23:36
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
このQ&Aを見た人はこんなQ&Aも見ています
おすすめ情報
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
検量線の決定係数について
-
EXCELにてローパスフィルタを作...
-
統計学の基本的なことについて...
-
サンプル数の異なる2群間にお...
-
エクセルのグラフから半値幅を...
-
下の対数表示のグラフから低域...
-
溶解度の問題 理科
-
最小二乗法を反比例の式を元に...
-
心理機能診断をしたのですが、...
-
統計学のサンプル数2000の根拠は?
-
統計学の問題でわからないので...
-
対数グラフの対数とは・・・?
-
標準偏差の分母にルートをかけ...
-
z値p値とはなんですか?
-
心理学の統計について
-
検量線の作り方
-
全商推薦について教えてください。
-
相関係数
-
v-xグラフのようなものは描けま...
-
物理 波
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
エクセルでランダム関数で乱数...
-
ブラック・ショールズ方程式を...
-
複数の集団の全体平均が0より有...
-
検量線の決定係数について
-
ポアソン回帰でのカウントデー...
-
青い下線部分はなぜそうなるの...
-
統計学の問題でわからないので...
-
[Excel] リストからの無作為抽出
-
x^2+y^2はどのような分布をする?
-
エクセルのグラフから半値幅を...
-
統計について
-
極値をもつ時と持たない時、単...
-
エクセルで正規分布かどうかを...
-
パイロットサンプルって何ですか?
-
データが正規分布しているか判...
-
回帰分析の回帰係数のt検定
-
正規分布について
おすすめ情報