アプリ版:「スタンプのみでお礼する」機能のリリースについて

全体ではない、多くのサンプルで上位5%だった場合に、全体でも上位5%である確率というのは、どのぐらいですか。


例①
全体の数がSだけど、サンプルの数nで上位5%のものは、実際に全体でも上位5%である確率は、どのぐらいですか。

例②
全体の数は無限にある場合に、サンプルがnのときは、どうなりますか。

例③
全体の数は何とも言えないが、理想的な確率というのがあります。例えば、サイコロです。「サイコロ一般」の1が出る確率は1/6だと、なんとなく思っています。そして、n回ふってみて、「正常なサイコロなら、こんなことは、5%しか起こらない」となったら、そのサイコロが正常でない確率は、どのぐらいですか。また、正常な確率は、どのぐらいですか。

質問者からの補足コメント

  • 例③

    サイコロをn回ふって、
    全部1が出たとして。

    このサイコロがもしも正常だとしたら、そんなことが起こるのは、
    (1/6)^nです。
    nが10だったら、約6000万回に一回起こるかどうかのことです。

    そんなことがあったとき、このサイコロが正常な確率はどのぐらいですか。

      補足日時:2023/06/01 23:16

A 回答 (11件中1~10件)

No.10さんが実施したシミュレーション結果の52.8%という値についてですが、正規母集団の上から5番目の順序統計量の分布を考えれば理解できることと思います。



連続分布では、同じ値がでる確率は0なので、No.5でのシミュレーションは、母集団が標準正規分布の大きさ100の無作為標本の上から5番目の順序統計量が1.645以上となる確率に近いものになります。

実際に計算すると、期待値は
1.687177 with absolute error < 8.5e-05
1.645以上となる確率は
0.5640187 with absolute error < 1.8e-05
となります。

# R による計算
# 母集団:標準正規分布
# 標本の大きさ:100
# 上から5番目の順序統計量の確率密度分布
f <- function(x) 100*choose(99, 4)*pnorm(x)^95*pnorm(x, lower = F)^4*dnorm(x)
# 期待値
integrate(function(x) x*f(x), lower = -Inf, upper = Inf)
# 母集団での95%点以上となる確率
integrate(f, lower = qnorm(0.95), upper = Inf)
    • good
    • 0

>5人全てが、全体でも上位5%に入っている確率



これは、先のシミュレーションでは、52.8%でした。
意外に低くて、ビックリしました。
    • good
    • 1

例えば、母集団全体の5%を特上品としよう、としたとき・・・、



今年は100個収穫できました。このとき、特上品はその上位4個くらいにしておくべきだ。

私は、このように理解しました。
    • good
    • 0

> 高所得者の上位5%と言ったら、サンプルが100としたら、上から5人です。



私は、ご質問者のこの意見を支持します。

その標本(5人)が、果たして母集団の上位5%に入るのか?
ですよね。
    • good
    • 0

> 高所得者の上位5%と言ったら、サンプルが100としたら、上から5人です。



呆れたな。その5人のうちのどれの話かと言っとるのですよ。
    • good
    • 0

②は平均で論ずるなら簡単ですが、パーセンタイル点については、サンプリングの都度、平均に加えて分散も動くので、計算上、それを考慮する必要があります。



また、裾野の分布は非対称で非心分布になりますし、そのうえ、サンプルの上位5%が、母集団の閾値の上側にオーバーシュートして収まってしまうケースは、本来大幅にズレているにも関わらず誤りとしない訳ですから、かなり面倒な計算になりそうです。

つまり、平均変動vs分散変動の2次元座標上に、いびつな密度分布の山があり、それを、ある境界で仕切った片側だけの体積を求めよという問題ですね。ややこしいです。

ということで、降参です。ごめんなさい。
    • good
    • 0

興味深かったんで、コンピュータシミュレーションをやってみました。



①S=1万個の正規乱数を作り母集団としました。
こそからn=100個ランダムサンプリング(非復元抽出)して上位5個を得ました。
それらが、母集団の上位5%に入る確率(5個中何個入ったか)を調べました。(結果は0個~5個まで様々です)

試行数1000で、平均は0.815(個数の平均は4.076個)でした。
これが①のある1つのケースの結果です。

②はSとnの関係ですが、nがSに漸近すれば誤りは減ると思いますが、現在、どうまとめるか検討中です。

③は前園宜彦(2001)「統計的推測の漸近理論」,九州大学出版会でも読んでください。
補足に書かれたことは、分布の中心の振る舞いとは異なり、裾野の問題なので、話が別だと思います。
    • good
    • 0

> サンプル内で上位5%以内の成績だった者が、全体でも上位5%以内である確率は、いくらか?



何も変わってない。No.3を読んでからイチャモンつけてください。
    • good
    • 0

例①:数学の問題として成立していません。

「サンプルの数nで上位5%のもの」のうちには最上位のものもあれば、ギリギリ5%に入ったものもある。一体何を指して「上位5%のもの」と呼んでいるのかをはっきりさせなくては話が始まらないからです。
 それはご自分で何とかしてもらうとしても、何はともあれサンプリングがランダムだという仮定がないとどうにもならない。この仮定を置くとして、ご質問から言えることは:

 母集団Sの部分集合T (T⊂S)が|T|=θ|S|のとき、n個のサンプルのうちTに入るものの個数kは二項分布
  B(θ,n,k) = nCk(θ^k)((1-θ)^(n-k))
に従う。なので、「n個中k個がTに入った」という経験から推定される事後確率密度は(θ先験分布を0〜1の一様分布だとして)
  P(θ)=B(θ,n,k) / ∫[0〜1] B(θ,n,k) dθ = (θ^k)((1-θ)^(n-k))/(n+1)
これが「n個中△を満たすものがk個ある」という条件のもとで、Sのうち何%(100θ)が△を満たすか、というベイズ推定です。ご質問の場合△=「上位5%」。この式は|S|とは関係ないですね。
    • good
    • 0

サンプル(ランダムサンプリングに限る)の数によって、たとえば95%の確率で○○という統計結果が出せます。

    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!