統計で、検出力の設定が大きいと有意差が得られにくいとは、どういうことなのか？さっぱり分からないので教

Question

統計で、検出力の設定が大きいと有意差が得られにくいとは、どういうことなのか？さっぱり分からないので教えてください。

kamiyasiro · Accepted Answer

企業でSQCの推進を担当する者です。

検出力とは、１－β のことです。
β とは、第二種の過誤、あるいは、ぼんやり者の誤りと言います。

今、正例と負例の正規分布が重なっていると考えます。
健康な人と、高血圧の人の集団と考えて下さい。そして、
ふたつの山の谷間に、両者を隔てる境界線があると思って下さい。

正例のすそ野の、境界線の外側を棄却域と言います。
通常は、これが５％になるよう、境界線を引きます。
この裾野を α と言います。第一種の過誤、あわて者の誤りです。
（高血圧でなくても、高血圧だと言ってしまう誤りの率が、
２０人診断すると１人の割合で出るということです）

境界を挟んで、上記の棄却域の反対側にある負例の裾野が
β の部分です。

検定では、境界を超え、正例の５％の棄却域に入ったら、
正例ではなく、負例であると考えます。
ところが、本当は負例であっても、棄却域より少し内側にあって、
上記のβ の領域に入ってしまうと見逃すことになります。

健康な人と、高血圧の人の境界を２００とすると、
１８０くらいの人は、高血圧とは診断されません。
β が大きく、見逃しが多いのです。

そこで、β を小さくしたいと考えます。
そのために境界線をもっと正例側に移動します。
β を小さくしたので、検出力は上がります。

医者は、高血圧を見逃したくないので、
１４０でも高血圧の診断が出るようにするのです。

こうすることにより、健康な人と、高血圧の人の
血圧の差はほとんど無くなります。
言いかえると、有意な差は無くなるのです。

この状態は、β が小さく、逆にα が大きな状態になります。
#1さんは、α が小さくなると言っていますが、
検出力を大きくすることは、α を大きくしますので、
ご注意ください。

yhr2 · Answer

No.1です。不正確な書き方をしたので、#2さんに指摘されてしまいました。
なので、ちょっと補足。（図がないと、#2さんの説明も理解できないと思いますので）

No.1では、正確には2つの正規分布の「有意水準」の「綱引き」で説明すべきところを、1つの正規分布での「有意水準」の「考え方」だけの説明にしたため、正確ではありませんでした。ただし、考え方は理解してもらえたのではないかと思います。
　下の説明は、ほぼ正確だとは思いますが、ちょっと「こんがらかる」ものですので、分からなければきちんと教科書や参考書で確認してください。

「検定」は、No.1に書いたような方法で行いますが、具体的には「2つの正規分布」間の比較です。（2つのグループであってもよいし、「母集団」とそこからサンプルした「有限の標本」でもよい）

２つの分布の関係が下図のようなときに、たとえば「μ0」の分布を基準に、他グループの「μ」の値が一定値以上離れていること（黒で書かれた「危険率 α/2」の領域に入っている）ことをもって「有意差あり」と判定します。

（検定の場合には「2つの分布は等しい」という帰無仮説を立てて、「μ」の分布が「危険率 α/2」の領域に入っていることをもって「有意差あり」つまり「統計的にあり得ない低確率のことが起こっている」として、その「帰無仮説を棄却」し、「対立仮説：2つの分布は異なっている」という結論を得ます）

このときに、「網掛け：β」の部分は、「本来は有意差があるかもしれない」のに、「危険率 α/2」の領域に入っていないために「有意差なし」と判定される領域です。この「β」が、#2 さんも書かれている「第二種の過誤」です。
　「検定力」は、「μ」の分布の「β 以外の部分」つまり「1 - β の部分」のことをいいます。これは「有意差のあるものが、正しく有意差ありと判断される確率」ということです。

これを見れば分かる通り、「危険率 α/2」（あるいは  α ）を小さくすると（その逆である「信頼区間」を大きくすると）、「第二種の過誤の確率 β」が大きくなる、逆に「危険率 α/2」（あるいは  α ）を大きくすると（その逆である「信頼区間」を小さくすると）、「第二種の過誤の確率 β」は小さくなることになります。
　「1 - β 」が「検定力」ですので、「検定力」と「信頼区間」とは「綱引き」の関係になることになります。

検定力「1 - β 」を大きく取れば、判定ラインは右に移動して「危険率 α/2」の領域が大きくなります。
　つまり、「本当は有意差がないのに、有意差ありと判定してしまう（第一種の過誤）」確率が増えるということです。

質問者さんの「有意差が得られにくい」という趣旨がよく分かりませんが、起こることは上のようなことです。
　あくまで「判定ラインをどの辺に引くか」「第一種の過誤、第二種の過誤のバランスをどうとるか」ということです。

下記の図は、こちらからお借りしました。こちらのサイトも読んでみてください。
https://staff.aist.go.jp/t.ihara/confidence.html

yhr2 · Answer

「検定」って、何をやっているのか、きちんと理解していますか？

「検定」とは、単純化して言えば、正規分布の「信頼区間」を利用して、「信頼区間に入るか入らないか」を調べています。「信頼区間に入らない」つまり「有意な差がある」ことを判定するものです。

ご承知とは思いますが、「正規分布」とは、平均値をピークに、左右にダラ下がりの分布です。
　このとき、標準偏差を「σ」として、
　　平均値± σ　の範囲に、全体のデータ度数の 68.3% が入る
　　平均値±2σ　の範囲に、全体のデータ度数の 95.4% が入る
　　平均値±3σ　の範囲に、全体のデータ度数の 99.7% が入る
という特性があります。
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm

これを、σ側ではなく「全体の○○%」の方を基準にした言い方にすると
　　平均値± 1.65σ　の範囲に、全体のデータ度数の 90.0% が入る
　　平均値± 1.96σ　の範囲に、全体のデータ度数の 95.0% が入る
　　平均値± 2.57σ　の範囲に、全体のデータ度数の 99.0% が入る
ということになります。(この「全体の○○%」が「信頼区間」です）

検定のときに使う「有意水準」とは、この「信頼区間」に入らない確率です。「信頼区間 90%」とは「有意水準 10%」ということ、「信頼区間 95%」とは「有意水準 5%」ということです。
　つまり「有意な差がある」と判定する確率のことです。

「検定力の設定が大きい」とは、「信頼区間が大きい」（誤って「有意差あり」と判定する確率が小さくするために、信頼区間を大きく取る）ということかと思いますが、そうすれば「有意水準は小さくなる（厳しくなる）」ということです。
　要するに「当たり前のこと」を言っているにすぎません。

統計で、検出力の設定が大きいと有意差が得られにくいとは、どういうことなのか？さっぱり分からないので教

企業でSQCの推進を担当する者です。

No.1です。

「検定」って、何をやっているのか、きちんと理解していますか？

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング