信頼区間の信頼度の解釈について（統計学）

Question

最近、統計について勉強しているのですが、信頼区間の信頼度の解釈について教えてください。

母平均ｍの区間推定について、
ある標本Ａから信頼度９５%の信頼区間Ａ　「a≦x≦b」
が得られたとします。
信頼度95%の信頼区間の解釈として

解釈①　仮に100通りの標本から100通りの信頼区間を求めたとき，その100通りのうち95本の信頼区間が母平均mを含んでいる（正しい解釈）

という解釈できることはわかります。
一方で、標本Ａから得られた信頼区間Ａから

解釈②　母平均mがa≦x≦bの範囲に含まれる確率は95%である（間違いとされる解釈）

という解釈は間違いであると書かれてある記事を読みました。たしかに解釈①は正しいことはよくわかるし、解釈①と解釈②では解釈の仕方が違うことは分かるのですが、解釈②は間違いなのでしょうか？

どちらも同じではないか、、、と感じてます。

kamiyasiro · Accepted Answer

＞「母平均mがa≦x≦bの範囲に含まれる」という主張が正しい確率は95%であるとしたら、正しいことを述べているでしょうか？

はい。「今回の１回の観測において、母平均mがa≦x≦bの範囲に含まれる」という条件命題は95％の確率で真です。

これをもとに平均値の差の検定が生まれました。もし新たなサンプルの平均がその範囲にないとき、平均が変わったと言える、というのがネイマン・ピアソン流の検定の考え方で、その主張が間違う確率は５％です。ですからそれを「危険率」と言います。

つまり、ネイマン・ピアソン流検定では、サンプリングを何度も何度も行えば、母平均mがa≦x≦bの範囲に含まれる確率は95％だから、a≦x≦bの範囲に無い時は帰無仮説を棄却しよう、というスタイルになります。

一方、フィッシャー流検定ですが、彼は農事実験をライフワークにしていましたので、サンプリングを何度も何度も行う、という発想には違和感を示していました。農事実験は１回しか行うことができないからです。

そこでフィッシャーは、偶然誤差の範囲を越えれば、その効果は有意と見なそう、という検定スタイルを主張しました。ですから、同じ５％でも「有意水準」と呼びます。実験計画の分散分析はF検定ですが、F＝VA/Ve、つまり誤差分散Veを分母（基準）としています。

このネイマン・ピアソンとフィッシャーの論争は有名です。

なお、ネイマン・ピアソン流のu検定、t検定（母分散既知か未知かの違い）と、フィッシャー流の分散分析（F検定）は同じ結論を与えますので、実務上は意識しなくても構いません。

kamiyasiro · Answer

#6です。

ご質問者様が初学者であるとのことですので、ゼロ・バイアスドのμ0がなぜ母平均なのか、という説明をさせて下さい。

サンプルの平均は、サンプリングの都度値が異なり、分布を持ちます。そして、サンプル平均の分布のばらつきｓは、母標準偏差をσとし、サンプルサイズをｎとすると、

ｓ＝σ／√ｎ

言い換えれば毎回のサンプル平均は母平均に対し何らかのバイアスがあるのですが、それがゼロ・バイアスドになるってことは、分母の√ｎが無限大、つまり母集団になるときなのです。

つまり、ゼロ・バイアスドの平均は母平均と同じなんです。

kamiyasiro · Answer

すみません。「仮説」の発音はハイポセシスの方が正しいかも、です。

kamiyasiro · Answer

#5です。

教科書を読んでいると、記号の添え字の意味が気になることがありませんか？

まず、帰無仮説のH0ですが、これは数字の0で、ナル・ハイパーセシスのナルの意味でゼロを振ります。
対立仮説はH1，H2，H3と、数字の連番を振っていきます。31まである文献を見たことがあります。

次に、ｔ検定とかでｔ値を計算するときにｔoと書かれています。これは小文字のオーです。現在の観測値のｔ値なので、observationの頭文字のｏが添え字として使われます。間違えてゼロと思っている人が結構います。

そして本題ですが、平均μについて。

観測値の平均はμｏで添え字は上記の如く観測observationの頭文字「オー」を使いますが、母平均は数字のゼロを使いμ０と書くことがあります。これは「ゼロ・バイアスド」という意味で０を使っています。

今回のご質問では、母平均はｍでしたので、μ０は用いませんでしたが、混同・誤解を避けるために、ここの添え字はｏで観測値の平均だと、あえて断り書きを入れました。

余計なご心労をお掛けしお詫びします。

kamiyasiro · Answer

#4です。書き足らないことがあったので・・・、

ネイマン・ピアソン流検定は、#4に書いたケースと逆の場合、すなわち新しいサンプルの平均値が信頼限界内にあるケースでは、そのどこかに母平均ｍがあるわけだから「母平均ｍと違いがある」と強く主張できません。

そのとき帰無仮説（H0：μo＝m）は採択されるのではなく「保留」されます。（添え字oはオブザベーション）

保留の場合の結論は、「新しいサンプルの平均値は母平均ｍと等しい」ではなく、「新しいサンプルの平均値は母平均ｍと違いがあるとは言えない」と消極的になります。

こうなるのも、ご質問の趣旨からご理解頂けると思います。

フィッシャー流の場合、分布の95％範囲内であれば「効果はない」「寄与はない」と言ってしまいます。そんなのは誤差でしょ、というスタンスです。ですから効果のない因子はどしどし誤差にプーリングしていきます。

検定推定を学んだあとに、実験計画法に進むと違和感を感じるのはそのためです。何も感じず流していく人も多いですが・・・。

kamiyasiro · Answer

#2です。

ちなみに、数値シミュレーションで確認したところ、当該試行を10万回行ったら、ほぼ95％になりましたよ。
1万回ではダメでした。だから100回なんてのは比喩的な話でしかありませんね。誰が書いているのだか、いい加減なことは書かないで欲しいです。

以下はRで行ったシミュレーションのスクリプトです。
毎回、標準正規乱数20個を生成（サンプリング）しています。

# 平均値の信頼区間とは、
# その区間が平均値mを含む確率が95％であるという確認

k <- 0
ans <- 0

while(k < 100000){

x <- rnorm(20)

# 平均値の信頼区間を求める
fit <- lm(x ~ 1)
result <- confint(fit, level = 0.95)

c <- ifelse(result[1] < 0 & result[2] > 0, 1, 0)
ans <- ans + c

k <- k + 1

}

ans / k

# 時間がかかるがやってみたところ
# 結果は、0.94923 でした。

kamiyasiro · Answer

#1ですが、蛇足ながら・・・、

②を下記のように言い換えても正しくはありません。

「母平均mを、a≦x≦bの範囲が含む確率は95%である」

この理由は、b－aの幅が、観測の都度一定ではないからです。

一方、「標本抽出の試行を何度も行って求めたとき」という説明は半ば正しいです。100回では少なく「無数に行ったとき」と言うのが正しいです。

kamiyasiro · Answer

本来、母平均ｍは動かない値であり、a,bは観測の都度動く値です。

にも関わらず、②は、a,bを固定値のように言い、ｍが変動する値のように確率論的に扱うことが間違いなのです。

この点において、①は母平均ｍを固定して、a,bを変動する値として扱っているのが正しい解釈なのです。

信頼区間の信頼度の解釈について（統計学）

＞「母平均mがa≦x≦bの範囲に含まれる」という主張が正しい確率は95%であるとしたら、正しいことを述べているでしょうか？

#6です。

すみません。

#5です。

#4です。

#2です。

#1ですが、蛇足ながら・・・、

本来、母平均ｍは動かない値であり、a,bは観測の都度動く値です。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング