確率統計、正規分布?の問題です

Question

大学の確率統計の問題なんですがさっぱりわかりません。正規分布を使うとは思うのですが…

不良品率pの製品の山からn個の製品を取り出し、不良品の個数をXとするとき、P(│X/n-p│＜0.01)≧0.95となるnはいくつか。ただしp≦0.05とする。

標準正規分布表を添付しました。
テストが近くて困っています。お助けください。

yhr2 · Accepted Answer

No.1です。標準正規分布表の使い方を理解していないようですね。

＞「信頼区間95％」に全体のデータの 95.0% が入る範囲は"平均値± 1.96σ"←これが問題中で与えられていないのです。

それは「標準正規分布表に書いてあります」ということなのですよ。

画像に載せられた標準正規分布表は、表中の図にあるように 、変数 Z が「平均値(=0) ～ +x」の間にある確率（図の斜線部の面積）を表にしてあります。見出しが「x の値」、表の中が「確率（斜線部の面積）」です。

↓　同じ形態の「標準正規分布表」。中身は同じだと思います。
http://www3.u-toyama.ac.jp/kkarato/2016/statistics/handout/normdist.pdf

このタイプの「標準正規分布表」では、平均値から上半分だけの確率が書かれています。つまり、P≧0.95 となる確率は、この表では「この P の半分の値=0.475」を探すことになります。（分布表や「検定」のときに「片側」とか「両側」というのがこれです)

では、表の中の数値（見出しではなく）が、「0.475」に近いものを探してください。
　タテ見出しの「1.9」、そこから右に、上の見出しで「.06」というところに「0.4750」がありますね。これはつまり、「x=1.96」ということです。
　つまり、表に書いてあるのは、
「0 ≦ Z ≦ 1.96 となる確率は 0.4750」
ということです。これを図の左半分に対称形に拡張すれば
「-1.96 ≦ Z ≦ 1.96 となる確率は 0.9500」
ということです。

「標準正規分布」では、「平均値＝０、標準偏差＝１」ですから、実はこの「Zの値」が「標準偏差の何倍か」を表わしています。
　つまり、標準正規分布表か読み取れることは
「-1.96σ ≦ Z ≦ 1.96σ となる確率は 0.9500」
ということです。

No.1に書いた
　　平均値± σ　の範囲に、全体のデータの 68.3% が入る
　　平均値±2σ　の範囲に、全体のデータの 95.4% が入る
　　平均値±3σ　の範囲に、全体のデータの 99.7% が入る
とか
　　平均値± 1.65σ　の範囲に、全体のデータの 90.0% が入る　←これが「信頼区間90％」
　　平均値± 1.96σ　の範囲に、全体のデータの 95.0% が入る　←これが「信頼区間95％」
　　平均値± 2.57σ　の範囲に、全体のデータの 99.0% が入る　←これが「信頼区間99％」
は、すべて「標準正規分布表」にそう書いてある、ということなのですよ。

yhr2 · Answer

不良品率pということは、正常品の確率は 1-p ですから、この中から n 個を取り出したときに、故障品が k 個である確率が
　　P(k) = nCk * p^k * (1 - p)^(n - k)
という「二項分布」ですね。

この場合には、
　　期待値　E = np
　　分散　　V = np(1 - p)
となります。（これは必ず教科書に載っていると思います。高校数学の範囲かな？）
http://mathtrain.jp/bin

また、二項分布は、nが大きいときには正規分布で近似できます。

与えられた問題では、「n個の製品を取り出したときの不良品の個数がX」ということなので、期待値は np ですから
　　X - np
が期待値との偏差です。問題の式の中に書かれているのは、これをサンプルサイズ n の 1% 未満にしたいということです。
　　| X - np | < 0.01n

問題の式の中に書かれているのは、これを「1個あたり」に正規化、つまり「確率」表現したしたものです。
　　| (X/n) - p | < 0.01

これは、絶対値を外せば
　　p - 0.01 < X/n < p + 0.01　　　（１）
　　np - 0.01n < X < np + 0.01n　　　（２）
ということです。

X の期待値は np ですから、この期待値の周りの ±0.01n の範囲内ということです。

一方、正規分布では、ご承知の通り、標準偏差を「σ」として、
　　平均値± σ　の範囲に、全体のデータの 68.3% が入る
　　平均値±2σ　の範囲に、全体のデータの 95.4% が入る
　　平均値±3σ　の範囲に、全体のデータの 99.7% が入る
という特性があります。
http://www.stat.go.jp/koukou/howto/process/p4_3_2_1.htm

σ側ではなく「全体の○○%」の方を基準にした言い方は、統計でよく言われる「信頼区間○○%」ということで
　　平均値± 1.65σ　の範囲に、全体のデータの 90.0% が入る　←これが「信頼区間90％」
　　平均値± 1.96σ　の範囲に、全体のデータの 95.0% が入る　←これが「信頼区間95％」
　　平均値± 2.57σ　の範囲に、全体のデータの 99.0% が入る　←これが「信頼区間99％」
ということですね。

問題では、
　　　P(|X/n - p| < 0.01) ≧ 0.95
ということですから、「全体のデータの 95.0% が入る」つまり「信頼区間95％」ということです。

つまり（２）の範囲に全体のデータの 95.0% 以上が入るようにするためには
　　1.96σ≦ 0.01n　　　（３）
にすればよいということです。

ここまでの考え方は理解できますか？

あとは
　　分散　　V = np(1 - p)
　　　↓
　　標準偏差　　σ = √V = √[ np(1 - p) ]
であることから、（３）に代入した

1.96√[ np(1 - p) ] ≦ 0.01n

を解けばよいことになります。

つまり
　　3.84*[ np(1 - p) ] ≦ 0.0001n^2
　　n*[ n - 3840p(1 - p) ] ≧ 0

よって
　　n ≧ 3840p(1 - p)

たとえば、p=0.03 とすれば
　　n ≧ 3840 * 0.03 * (1 - 0.03) = 111.744
つまり
　　n ≧ 112 (個)
ということになります。

多分、こんな考え方でよいと思うのですが。

確率統計、正規分布?の問題です

No.1です。

不良品率pということは、正常品の確率は 1-p ですから、この中から n 個を取り出したときに、故障品が k 個である確率が

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング