誤差範囲を小さくする方法

Question

全体の95%が平均値の±10%に入る母集団があったとして、（平均値が50だとした場合、45～55の間に全体の95%が入る。）
そこから、サンプルを3つ取り出して、真ん中の値を見たとき、その値と平均値との誤差は95%の確率で±何%になるか。
（サンプルが47,51,52の場合、51と平均との誤差は2%。これを無数に繰り返したときに95%の確率で言える
誤差。）

上記は私の仕事上の悩みです。
母集団の平均値が分からない状態で、
なるべく平均値に近いサンプルを得たいと考えています。
サンプルの取得に非常に手間が掛かるので、サンプル数は3つ以下にしたいと考えています。
また、サンプルの平均値を用いるのもある事情があり難しいです。
上記の方法以外にもうまい方法がございましたら、
ご教授をお願いいたします。

0shiete · Accepted Answer

#2の方にしたがって、Excelにて数値計算をしてみました。

==やり方==
1)A列に1行目から0->999の数字をたてに並べる
2）B列1行目に
=2.55*SQRT(-2*LN(RAND()))*COS(2*PI()*RAND())+50
を入れる（45以下、55以上になる確率が5%の正規分布）
これを下にドラッグし、999の横まで同じ式を入れる

3)E列、F列、G列1行目に
=VLOOKUP(INT(RAND()*999),$A$1:$B$1000,2,)
を入れる（３つ取り出すところに対応します）
これを下にドラッグし、999の横まで同じ式をいれる。

4)I列1行目に
=MEDIAN(E1,F1,G1)
をいれる（３つのうち、中央値をとる作業です）
これを下にドラッグし、999の横まで同じ式を入れる。

こうして、Ｉ列に一連の操作後の分布ができます。

別の適当なセルに
=STDEV(I1:I1000)
といれるとI列の標準偏差(約1.65)が計算できます。
これとB列の標準偏差
=STDEV(B1:B1000)
の比をとると、およそ0.65ぐらいになります。

つまり、もとの分布より平均値近くに集まった
分布ができます。

シミュレーションですので、
シートを再計算させて、値を見てみてください。
また、[ツール]-[分析ツール]で、統計量や
ヒストグラムを見てみてください。


（ご質問の一連の操作後の分布が正規分布を保っているのかどうか、チェックする必要があるかと思いますが、目安にはなるのではないでしょうか？）

noname#21649 · Answer

＞なるべく平均値に近いサンプルを得たい
より.層別サンプリングの話題です。
個のような場合には.具体的に何をサンプリングするか.という話になりますので.サンプリング技術の話題ですから.数学の範囲では.解答が困難です。

なお.統計が成立するためには.ランダムサンプリングが原則であり.ご指摘のように偏ったサンプリングをした場合には.一切の統計処理が無効になります（つまり.平均値が存在しない）。
したがって.統計処理を行わない.という.観点から行うのであれば.適当な標準を作り.この標準だけを測定すれば.常に平均値付近の値をえられます（データの捏造とも呼びます）。

noname#108554 · Answer

>この場合の理論的な誤差が何%になるのか分からないものでしょうか？ 

分かると思いますよ、確率分布が分かっているなら。
そして、それが分散が有限な分布なら。

私は、Gauss分布を仮定して計算しようとしたのですが、
あまりきれいな式になりそうにないのでここには載せられません。

いっそのこと、モンテカルロ法でも使って求めた方が早いんじゃないでしょうか。

0shiete · Answer

補足をいただきたいのですが、

無数に繰り返すことができるなら、
サンプルは３つだけというわけではないのでは？

一回に３つかもしれないですが、別の箇所に
数字を記録しておけば、たくさんサンプルを
とったことになるのではないでしょうか？

そして、その記録をもとに、平均値をもとめ、
それに近いシートがでてくるまでサンプルを繰り返せばよいのではないでしょうか？

noname#21649 · Answer

＞分からないものでしょうか？ 
既にあるように計算自体は比較的簡単にできますが.私が行うと計算間違いをするので.回答しません。

stomachman · Answer

「累積分布φに従う母集団からサンプルを３個とって、真ん中のを拾ったとき、その分布は？」という問題として考えてみました。

　そうやって取った３つのうちの中央値がx～x+dxの範囲（以下、区間I(x)と書きます）に入る。これはどういう時に起こるか。
　一回のサンプリングでサンプルの値がxより小さい確率はφ(x)、サンプルの値がxより大きい確率は(1-φ(x)）。ゆえに一回のサンプリングでサンプルの値が区間I(x)＝[x,x+dx]に入る確率は
φ(x+dx)-φ(x)
です。だから、３つのサンプルのうち丁度一つだけがI(x)に入り、しかもそれが３つの内の中央値であるという確率は
6(φ(x+dx)-φ(x))φ(x)(1-φ(x+dx))
となります。これをdxで割ってdx→0の極限を取ると、３回のサンプリングの内の中央値の確率密度関数は
6φ'(x)φ(x)(1-φ(x))
となります。

　ついでに、一般に2n+1回のサンプリングで中央値を取り出した場合、その確率密度関数は
(2n+1)((2n)Cn) φ'(x) (φ(x)(1-φ(x))^n
ここにpCqはp個の中からq個を選ぶ組み合わせの場合の数=p!/(q! (p-q)!) です。

　元の分布が例えば平均0分散1の正規分布だとすると、φ(x)はexcelではNORMSDIST(x)となり、またφ'(x)（これがガウス曲線のグラフになります）は、たとえば =NORMSDIST(x+0.001)-NORMSDIST(x-0.001))/0.002なんてやって計算できます。

誤差範囲を小さくする方法

＞なるべく平均値に近いサンプルを得たい

この回答への補足

>この場合の理論的な誤差が何%になるのか分からないものでしょうか？

補足をいただきたいのですが、

この回答への補足

＞分からないものでしょうか？

#2の方にしたがって、Excelにて数値計算をしてみました。

「累積分布φに従う母集団からサンプルを３個とって、真ん中のを拾ったとき、その分布は？」という問題として考えてみました。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　「累積分布φに従う母集団からサンプルを３個とって、真ん中のを拾ったとき、その分布は？」という問題として考えてみました。