dポイントプレゼントキャンペーン実施中!

統計学の問題です。ご回答をよろしくお願いいたします。

Webサイトは、初めての訪問者の登録を増やしようとしており、これらの訪問者の1%に新しいサイトデザインを公開している。1か月間に新しいデザインを見たランダムにサンプリングされた752人の訪問者のうち、64人が登録した。
(a)信頼区間を構成するために正規分布で近似してよい条件を確認しなさい。
(b)標準誤差を計算しなさい。
(c)新しいデザインサイトでの初めての訪問者のうちで登録する割合の90%信頼区間をつくりなさい。

A 回答 (3件)

※この回答は、“締め切られた質問への回答追加”として、2021/11/05 18:29 に回答者の方よりご依頼をいただき、教えて!gooによって代理投稿されたものです。



---

 「正規分布で近似する」という話がどこから出てくるんだか、ちょっと不思議です。
 「確率θの選択をN回試行してr回実現した、という場合のθの信頼区間の上限」とは、Nとθを母数とする二項分布を B[N,θ](k)とするとき、閾値pについて
Σ{k=0〜r}B[N,θ](k) ≦ p である最小のθ
ということであり、一方、自由度(n1,n2)のF分布をG[n1,n2](x)とすると、近似なしに
Σ{k=0~r}B[N,θ](k) = ∫{x=X〜∞} G[2(r+1),2(N-r)](x) dx
ただし、X = (r+1)θ/((N-r)(1-θ))
です。いわゆる「F分布表」は、この積分の値をlook upするとXが分かるように作ってある。だから、積分 ≦ p になるXを調べて
θ = (N-r)X / ((r+1) + X(N-r))
を計算するのが、当然のやり方。下限も同様です。
    • good
    • 0

二項分布の信頼区間の推定方法はいくつもあり、Rで試すことができます。


やってみたところ、それぞれ微妙に違いますね。

> binom.confint(64, 752, conf.level=0.9, methods="all")
    method  x  n    mean   lower   upper
1 agresti-coull 64 752 0.08510638 0.06975483 0.1034326
2  asymptotic 64 752 0.08510638 0.06836911 0.1018437
3     bayes 64 752 0.08565737 0.06885151 0.1022490
4    cloglog 64 752 0.08510638 0.06935077 0.1028139
5     exact 64 752 0.08510638 0.06893687 0.1037474
6     logit 64 752 0.08510638 0.06979368 0.1034052
7    probit 64 752 0.08510638 0.06957288 0.1031040
8    profile 64 752 0.08510638 0.06936330 0.1028375
9      lrt 64 752 0.08510638 0.06936147 0.1028371
10  prop.test 64 752 0.08510638 0.06661902 0.1079505
11    wilson 64 752 0.08510638 0.06982041 0.1033671

これらの方法も含めて、勉強しつつプログラムをする予定です。
    • good
    • 0
この回答へのお礼

お礼が遅くなり、申し訳ございません。まだ回答が出ていませんが、参考にさせていただきます。

お礼日時:2021/11/10 23:39

なかなか回答が付きませんが、私から。


難問ですよ。これは。

まず、これだけ項数が多いと(752)、コンビネーションや二項確率の計算ができません。そのため、95パーセンタイル値とか、99パーセンタイル値が計算できません。

信頼区間を議論するには、このようなすそ野の一致性を議論する必要があります。

普通は二項分布の分布形状が対称形に近ければ、平均値まわりの値は正規分布との近似性が高いので、npの値がまあまあ大きければ、という話になるのですが・・・。
まさか、平均値まわりの話をしているのではないと思います。

実は正規分布近似は、すそ野の近似性は極めて悪いんです。理由は「確率」は非負なのに正規分布の範囲はー∞から∞ですから。
そのため、裾野の議論をしたいときは、「ロジット変換」か「逆正弦変換」をしてすそ野の近似性を得ます。QCをやっている人にとっては常識の話です。QC検定に出題されますからね。

方針は、上記を踏まえて、

①まず、二項分布では計算ができません。二項分布の項数が大きい時はポアソン分布で近似せよ、といわれているので、ポアソンでnを変えて99パーセンタイルを調べる。pは64/752に固定する。

②常套手段である「ロジット変換」「逆正弦変換」「正規分布近似」のそれらと比較する。たぶん、正規分布近似がだんだん漸近してくるはず。期待する精度は指定されていませんが、±1%くらいですよね。その時のnを求める。


これはプログラムを書かないとできませんね。今度の土日にやってみようと思いますので、閉じずに待っていて下さい。

また、どの書籍か知りませんが、正解があるなら示して下さい。もしnpが・・・と書いてあったら、そんな本は即刻粗大ごみに出すべきです。
    • good
    • 0
この回答へのお礼

ご回答をしていただきありがとうございます。
大学の統計問題でまだ回答がわかりません。多分来週になるかと思います。
もし週末に解けたらご回答をよろしくお願いします。

お礼日時:2021/10/28 23:51

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!