アプリ版:「スタンプのみでお礼する」機能のリリースについて

全体の95%が平均値の±10%に入る母集団があったとして、(平均値が50だとした場合、45~55の間に全体の95%が入る。)
そこから、サンプルを3つ取り出して、真ん中の値を見たとき、その値と平均値との誤差は95%の確率で±何%になるか。
(サンプルが47,51,52の場合、51と平均との誤差は2%。これを無数に繰り返したときに95%の確率で言える
誤差。)

上記は私の仕事上の悩みです。
母集団の平均値が分からない状態で、
なるべく平均値に近いサンプルを得たいと考えています。
サンプルの取得に非常に手間が掛かるので、サンプル数は3つ以下にしたいと考えています。
また、サンプルの平均値を用いるのもある事情があり難しいです。
上記の方法以外にもうまい方法がございましたら、
ご教授をお願いいたします。

A 回答 (6件)

>なるべく平均値に近いサンプルを得たい


より.層別サンプリングの話題です。
個のような場合には.具体的に何をサンプリングするか.という話になりますので.サンプリング技術の話題ですから.数学の範囲では.解答が困難です。

なお.統計が成立するためには.ランダムサンプリングが原則であり.ご指摘のように偏ったサンプリングをした場合には.一切の統計処理が無効になります(つまり.平均値が存在しない)。
したがって.統計処理を行わない.という.観点から行うのであれば.適当な標準を作り.この標準だけを測定すれば.常に平均値付近の値をえられます(データの捏造とも呼びます)。

この回答への補足

なかなかうまく説明できないのですが、
サンプルとして取得した値(現実にはもの(データシート)になります)の内、
1つ(1枚)しか提供できない状況で、
何とか母集団の平均に近いものを選びだせないか
悩んだ末に
3つ(3枚)の内、中間にあたる1枚を
選ぶ方法を考えた次第です。

この場合の理論的な誤差が何%になるのか
分からないものでしょうか?
(知識不足で文章がうまくまとまってなくて
申し訳ありません。)

補足日時:2003/11/28 12:21
    • good
    • 0
この回答へのお礼

分かりにくい質問ですみません。
そんな質問にもかかわらず、
ご回答いただきありがとうございます。

お礼日時:2003/11/28 12:21

>この場合の理論的な誤差が何%になるのか分からないものでしょうか?



分かると思いますよ、確率分布が分かっているなら。
そして、それが分散が有限な分布なら。

私は、Gauss分布を仮定して計算しようとしたのですが、
あまりきれいな式になりそうにないのでここには載せられません。

いっそのこと、モンテカルロ法でも使って求めた方が早いんじゃないでしょうか。
    • good
    • 0
この回答へのお礼

なるほど、力技で計算するという手があったんですね。
ありがとうございます。

お礼日時:2003/12/02 12:32

補足をいただきたいのですが、



無数に繰り返すことができるなら、
サンプルは3つだけというわけではないのでは?

一回に3つかもしれないですが、別の箇所に
数字を記録しておけば、たくさんサンプルを
とったことになるのではないでしょうか?

そして、その記録をもとに、平均値をもとめ、
それに近いシートがでてくるまでサンプルを繰り返せばよいのではないでしょうか?

この回答への補足

ご返答が遅れ大変申し訳ございません。
シートの出力に時間が掛かるので、
3回がMAXと考えております。

シートの内容に誤差があり、それが±10%となっております。

イメージとしては、計測器が近いのかもしれません。
例えば測定誤差が10%ある体脂肪計で3回測定した場合の中央値の誤差を知りたいということです。

よろしくお願いいたします。

補足日時:2003/12/02 12:20
    • good
    • 0

>分からないものでしょうか?


既にあるように計算自体は比較的簡単にできますが.私が行うと計算間違いをするので.回答しません。
    • good
    • 0

#2の方にしたがって、Excelにて数値計算をしてみました。



==やり方==
1)A列に1行目から0->999の数字をたてに並べる
2)B列1行目に
=2.55*SQRT(-2*LN(RAND()))*COS(2*PI()*RAND())+50
を入れる(45以下、55以上になる確率が5%の正規分布)
これを下にドラッグし、999の横まで同じ式を入れる

3)E列、F列、G列1行目に
=VLOOKUP(INT(RAND()*999),$A$1:$B$1000,2,)
を入れる(3つ取り出すところに対応します)
これを下にドラッグし、999の横まで同じ式をいれる。

4)I列1行目に
=MEDIAN(E1,F1,G1)
をいれる(3つのうち、中央値をとる作業です)
これを下にドラッグし、999の横まで同じ式を入れる。

こうして、I列に一連の操作後の分布ができます。

別の適当なセルに
=STDEV(I1:I1000)
といれるとI列の標準偏差(約1.65)が計算できます。
これとB列の標準偏差
=STDEV(B1:B1000)
の比をとると、およそ0.65ぐらいになります。

つまり、もとの分布より平均値近くに集まった
分布ができます。

シミュレーションですので、
シートを再計算させて、値を見てみてください。
また、[ツール]-[分析ツール]で、統計量や
ヒストグラムを見てみてください。


(ご質問の一連の操作後の分布が正規分布を保っているのかどうか、チェックする必要があるかと思いますが、目安にはなるのではないでしょうか?)
    • good
    • 0
この回答へのお礼

ありがとうございます。
なんとかできそうな気がしてきました。

私の稚拙で心許ない質問にご対応いただき
本当にありがとうございます。

お礼日時:2003/12/02 12:37

 「累積分布φに従う母集団からサンプルを3個とって、真ん中のを拾ったとき、その分布は?」という問題として考えてみました。



 そうやって取った3つのうちの中央値がx~x+dxの範囲(以下、区間I(x)と書きます)に入る。これはどういう時に起こるか。
 一回のサンプリングでサンプルの値がxより小さい確率はφ(x)、サンプルの値がxより大きい確率は(1-φ(x))。ゆえに一回のサンプリングでサンプルの値が区間I(x)=[x,x+dx]に入る確率は
φ(x+dx)-φ(x)
です。だから、3つのサンプルのうち丁度一つだけがI(x)に入り、しかもそれが3つの内の中央値であるという確率は
6(φ(x+dx)-φ(x))φ(x)(1-φ(x+dx))
となります。これをdxで割ってdx→0の極限を取ると、3回のサンプリングの内の中央値の確率密度関数は
6φ'(x)φ(x)(1-φ(x))
となります。

 ついでに、一般に2n+1回のサンプリングで中央値を取り出した場合、その確率密度関数は
(2n+1)((2n)Cn) φ'(x) (φ(x)(1-φ(x))^n
ここにpCqはp個の中からq個を選ぶ組み合わせの場合の数=p!/(q! (p-q)!) です。

 元の分布が例えば平均0分散1の正規分布だとすると、φ(x)はexcelではNORMSDIST(x)となり、またφ'(x)(これがガウス曲線のグラフになります)は、たとえば =NORMSDIST(x+0.001)-NORMSDIST(x-0.001))/0.002なんてやって計算できます。
    • good
    • 0
この回答へのお礼

>「累積分布φに従う母集団からサンプルを3個
>とって、真ん中のを拾ったとき、その分布は?」
>という問題として考えてみました。
こういう風に問題を表現できれば、良かったんですね。
私に統計的な素養が無かったので、
問題の本質が分かりづらく皆様にはご迷惑をお掛けしたしました。
ご回答が正解だとは思うのですが、
私が文系のため、理解するだけの力がございませんでした。今後はその辺りも伝わるように質問をさせていただきます。
ありがとうございました。

お礼日時:2003/12/05 13:52

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!