アプリ版:「スタンプのみでお礼する」機能のリリースについて

統計学の質問です。
例えばテレビの視聴率を計算する場合、各々の世帯においてテレビを見る・見ないの2択がある
ベルヌーイ試行と捉えることが出来るので、どれだけの世帯がテレビを見るかというのは
2項分布に従うと考えることができます。
そのため、例えば100世帯を調査して30世帯がテレビを視聴していた場合、
視聴率は 30 / 100 = 30%
その誤差は2項分布の標準偏差に則って
√( (30/100) * (1 - 30/100) / 100 )= 4.58 %
なので、30 ± 4.58 % と表すことができます。
信頼区間95%にすると1.96をかければ良いので 21.02 ~ 38.98 % です。
この際、視聴率が100%もしくは0%の場合、2項分布の標準偏差が0になるので、
推定する視聴率の誤差がそのサンプル数に関わらず0になってしまうのですが、
数学的にはどう扱うのが適当なのでしょうか?
直感的にはサンプル数が多いほど100%(もしくは0%)に対する誤差も小さくなる気がするので気になります。

よろしくお願いします。

A 回答 (8件)

もう少し、分かりやすく書くと、少々語弊があるかもしれませんが、



この結果より、±0.1%刻みで、
99%の信頼度で不良が無いことを保証するには、約4600個
95%の信頼度で不良が無いことを保証するには、約3000個
の調査が必要であると分かります。

視聴率なんて、調査数はせいぜい数百ですから、小数点以下の数値で上がった下がったと一喜一憂するのは無意味なんです。
    • good
    • 0

> 例えば100世帯調べたときの0%と1000世帯調べた時の0%とでは


> 直感的にはその誤差というか信頼性が違うと思うんです。
> それを評価する方法を何かご存知ではないでしょうか?

それには、必要な信頼度Qを確保するためのn数の算出方法が
応用できると思います。

信頼度Q=0.95とか、そんな値が適用されます。
これは、同様の調査を行ったとき20回に1回は間違うというレベルです。

母不良率pのN個のサンプル中の不良数xは幾何分布に従います。
ただし、Nが十分大きい時は二項分布で近似できます。

xの確率質量分布は、次の二項分布に従います。Cは組合せの記号とします。
 P(x)=NCx・p^x・(1-p)^(N-x)

ここで、pはほぼ0に近いとします。
実は、統計的には完全0%とか100%は生起し得ず、漸近するだけです。

何個調べて不良が出なければ、pが保証できるかという問題を考えてみましょう。

検出力としては、1個でも不良が出る確率を95%以上にすればよいと考えられます。
1個でも不良が出る確率は全く不良が出ない確率の排他だからです。
そのときのNを解けばよいです。

0.95 < 1 - NC0・p^0・(1 - p)^N
1 - 0.95 > 1・1・(1 - p)^N
log(1 - 0.95) > N・log(1 - p)
log(1 - 0.95) / log(1 - p) < N ・・・log(1-p)は負だから不等号の向きが変わる

不等号の左辺は、必要な調査数を与えます。
次の2事例をRで計算してみました。

> Q <- 0.99
> p <- 0.001
>
> log(1 - Q) / log(1 - p)
[1] 4602.867
>
> Q <- 0.95
> p <- 0.001
>
> log(1 - Q) / log(1 - p)
[1] 2994.234

この結果より、もしかすると0.1%の不良率が予想される場合、
99%の信頼度で不良が無いことを保証するには、約4600個
95%の信頼度で不良が無いことを保証するには、約3000個
の調査が必要であると分かります。

ご質問者様の疑問は、この逆算ケースなので、
Qの値を振ってグラフを描いて見れば、NとQの関係が出てくると思います。

全数検査に近いですね。
    • good
    • 0

>100世帯調べたときの0%と1000世帯調べた時の0%とでは直感的にはその誤差というか信頼性が違うと思うんです。

それを評価する方法を何かご存知ではないでしょうか?

違う番組の視聴率の数値の差から推定するぐらいしかないんじゃないですかね。
    • good
    • 0

うんと大きな母集団における視聴率がp(0に近い)であるとき、サンプルn世帯中の0世帯が視聴してた、ということが起こる確率Pは、二項分布を持ち出すまでもなく


  P = (1 - p)^n
すなわち
  p = 1 - exp((log P)/n)
ですね。そして、「0世帯が視聴」という調査結果から pの信頼区間(CI)を推定します。たとえば 5%の信頼区間(CI)を推定してみると、
  0 ≦ p <1 - exp((log(5%))/n)
だからn=10では
  0 ≦ p < 0.26
ですし、n=100なら
  0 ≦ p < 0.0295
ですし、n=1000なら
  0 ≦ p < 0.002991
ま、細かいことを言わなければ、nがそこそこ大きい時には近似式
  0 ≦ p < - log(5%)/n
で十分です。


さて、

> 推定する視聴率の誤差がそのサンプル数に関わらず0になってしまう

ということがどうして生じたのか。それはですね、

> 例えば100世帯を調査して30世帯がテレビを視聴していた場合、
> 視聴率は 30 / 100 = 30%
> その誤差は2項分布の標準偏差に則って
> √( (30/100) * (1 - 30/100) / 100 )= 4.58 %

が(厳密には)間違いだからです。
 ここに出てくる「2項分布の標準偏差」が意味しているのは、「母集団の視聴率pがピッタリ30%だったときに、母集団からランダムに選んだ100世帯中の何世帯が視聴しているかを調べると、約95%の確率で30-2×4.58世帯 〜 30+2×4.58世帯という結果が出るであろう」という意味です。(だからp=0の場合、標準偏差は当然0です。)
 この標準偏差は、「母集団からランダムに選んだ100世帯中で、視聴していたのが30世帯だとわかったということに基づいてpを推定する」場合のpの推定誤差の分布の標準偏差とは全くの別物です。
 しかしながら、「pがマンナカへんにあって、かつnが大きい時」には、(ややっこしい議論が必要ですが)前者は後者の良い近似になることが証明できます。

 で、このご質問では「pがマンナカへんにあって」という条件が成立していない状況でこの近似を使おうとしたために、話が破綻したわけです。
    • good
    • 1

> X軸は何を表しているのでしょうか?



説明不足でスミマセン。
一例として、溶接における加圧力がx軸で、溶接の良品率がy軸です。

この図を取り上げた理由は・・・、
ご質問者様の疑問点である誤差がどう変化するかを論ずる際に、良品の比率が変化する事例の方が、一定確率で論ずるより良く分かると思い、確率が変化するグラフを示すことにしました。

> 直感的にはサンプル数が多いほど100%(もしくは0%)に対する誤差も小さくなる

この点について回答していませんでしたが、確かにn数が増せば推定バラツキは小さくなります。√nに反比例して小さくなります。
    • good
    • 0

二値モデルの推定誤差は非対称です。



二値モデル、あるいは累積確率モデル(生存分析等)の分布曲線は、y軸が確率であるため(=上下限があるため)、尤度関数が特殊になります。

一般の推定では、「モデル残差が正規分布に従う(=対称)」という尤度関数です。
しかし、二値モデルでは、逸脱度という尤度が使用されます。
そのため、推定の良し悪しを判定する「標準誤差SE」や「決定係数R2」「モデル残差Ve」の概念も異なります。

逸脱度(deviance)とは、
・定数の場合を除いて、最大対数尤度のマイナス2倍の値。
・ただし、定数の場合は、飽和モデルがdeviance=0となるように決められる。
というものです。

例えば、添付図はy軸が確率ですが、グラフの極端なケース(両端)では誤差0に収束しますが、例えば100%という推定を行う場合、信頼区間上限は100%で誤差はありませんが、信頼区間下限にはまだ大きな誤差が残ります。

注1)赤の点線は信頼区間、青の点線は予測区間です。それぞれ上下幅が区間になります。

注2)二項分布の信頼区間は、本来離散値であるものを連続関数で置き換えて近似を行うため、様々な方法が提案されており、統計ソフトRでは実に11種類もの信頼区間が表示されます。
「視聴率100%(または0%)の際の誤差に」の回答画像3
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
逸脱度というのは初めて聞いた概念なので、勉強してみます。
このグラフについてお聞きしたいのですが、X軸は何を表しているのでしょうか?

お礼日時:2023/11/16 13:05

No.1 です。



たとえば、1万世帯中にその番組を視聴していない家が 10世帯あったときに、100世帯のサンプルの中にその10世帯のうちのいずれかが含まれない限り結果は「100%」になります。

それは、0.1%という小さい確率のものを、100世帯(全体の 1%)のサンプルでは正しく推定できないということです。
    • good
    • 1
この回答へのお礼

回答ありがとうございます。
確率が0.1%のものを100世帯(全体の1%)のサンプルでは正しく推定できないというのはごもっともなのですが、例えば100世帯調べたときの0%と1000世帯調べた時の0%とでは直感的にはその誤差というか信頼性が違うと思うんです。それを評価する方法を何かご存知ではないでしょうか?

お礼日時:2023/11/16 13:05

>この際、視聴率が100%もしくは0%の場合、2項分布の標準偏差が0になるので、推定する視聴率の誤差がそのサンプル数に関わらず0になってしまうのですが、数学的にはどう扱うのが適当なのでしょうか?



それは確率が「1」または「0」の事象ですから、結果はいくつ取って来てもばらつきません。
「男だけ」あるいは「女だけ」の母集団から採取して来れば、「必ず全部男」「必ず全部女」になるので「分散、標準偏差」は当然 0 になります。

そうではなく、確率は「1」または「0」ではないが、たまたまそのサンプルが「100%」または「0%」だったということですか?
その場合には、その「たまたまのサンプル」からは母集団の推定はできないということでしょう。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


このQ&Aを見た人がよく見るQ&A