
No.10ベストアンサー
- 回答日時:
話を簡単にするために、母集団は標準正規分布に従うとします。
標準正規分布の確率密度関数を f(x)、分布関数を F(x) とおきます。
標本の大きさを n (標本数ではありません)としたときの最大値の分布の確率密度関数 g(x) は、No.1 にも記載されている式から求められるとおり、
g(x) = n・F(x)^(n-1)・f(x)
となります。
従って、最大値 X_n の期待値 E[X_n] と分散 V[X_n] は
E[X_n] = ∫_(-∞, ∞ x・g(x) dx
V[X_n] = ∫_(-∞, ∞ (x - E[X_n])^2・g(x) dx
を計算すればいいのですが、n = 2, 3 以外は難しいですね。
シミュレーションか数値計算するのが手っ取り早いでしょう。
統計解析ソフト R( https://www.R-project.org/ )で# 母集団が標準正規分布で標本の大きさが n の最大値の分布の期待値と標準偏差を r回シミュレーションして推定してみました。
なお、標準正規分布の分位点から求めるのは過小評価してしまうので、注意が必要です。
(分位点は 100(n/(n+1)) %点を求めれば良い)
# スクリプト始め
fn <- function(r, n) {
x <- matrix(rnorm(n*r), ncol = n)
y <- apply(x, 1, max)
return(list(data = y, mean = mean(y), sd = sd(y)))
}
r <- 1000000
m2 <- fn(r, 2)
m2$mean # 期待値の推定値
m2$sd # 標準偏差の推定値
1/sqrt(pi) # 期待値の理論値
sqrt(1 - 1/pi) # 標準偏差の理論値
m3 <- fn(r, 3)
m3$mean # 期待値の推定値
m3$sd # 標準偏差の推定値
3/2/sqrt(pi) # 期待値の理論値
m4 <- fn(r, 4)
m4$mean # 期待値の推定値
m4$sd # 標準偏差の推定値
m5 <- fn(r, 5)
m5$mean # 期待値の推定値
m5$sd # 標準偏差の推定値
# スクリプト終わり
# 実行結果
> m2 <- fn(r, 2)
> m2$mean # 期待値の推定値
[1] 0.5647878
> m2$sd # 標準偏差の推定値
[1] 0.824598
> 1/sqrt(pi) # 期待値の理論値
[1] 0.5641896
> sqrt(1 - 1/pi) # 標準偏差の理論値
[1] 0.8256453
>
> m3 <- fn(r, 3)
> m3$mean # 期待値の推定値
[1] 0.847149
> m3$sd # 標準偏差の推定値
[1] 0.7475422
> 3/2/sqrt(pi) # 期待値の理論値
[1] 0.8462844
>
> m4 <- fn(r, 4)
> m4$mean # 期待値の推定値
[1] 1.029649
> m4$sd # 標準偏差の推定値
[1] 0.7004804
>
> m5 <- fn(r, 5)
> m5$mean # 期待値の推定値
[1] 1.16297
> m5$sd # 標準偏差の推定値
[1] 0.6696181
No.14
- 回答日時:
No.10 です。
> >標本の大きさを n (標本数ではありません)
>
> これはどういう意味になるでしょうか?
例えば、ある母集団から n 人を無作為に抽出して何かを調べたとします。
この n 人が一つの標本となります。
これとは別の母集団から m 人を無作為に抽出して、同じ何かを調べたとします。
この m 人も一つの標本となります。
n 人の標本と m 人の標本で標本数は 2 となります。
標本の大きさ(サンプルサイズ)は、それぞれ n, m となります。
No.11
- 回答日時:
#10さんは、分位点は 100(n/(n+1)) %点を求めれば良いと書かれていますが、これは平均ランク法ですね。
メディアンランク法(近似値)で計算すると、下記のように40個中の39個目は95.8%となり、そのときの期待値は1.727となります。
まあ、それに近いかなあ。
> (39 - 0.3) / (40 + 0.4)
[1] 0.9579208
> qnorm(0.9579208)
[1] 1.727052
No.9
- 回答日時:
せっかくなので、最大値分布というのをやってみます。
n=40、k=39でやってみます。
これは97.5%点になるので、期待値は1.96になるはずです。
そして、標準正規分布の最大値付近なので、上側のすそ野は+3σあたりに来るはずです。
グラフを見ると、おおかた合ってますよね。
最大値の標準偏差は、さすがにデータ個数が多い分0.35と小さいです。
> # n=40, k=39 でやってみる
>
> x <- seq(0, 4, by = 0.01)
> y <- NULL
>
> for(i in x){
+ y <- append(y, choose(40, 39) * pnorm(i)^39 * (1 - pnorm(i))^1 * dnorm(i))
+ }
>
>
> # 確率密度補正
>
> y <- y / sum(y)
> plot(x, y)
>
> # 標準偏差
>
> E1 <- sum(x * y)
> E2 <- sum(x^2 * y)
> sqrt(E2 - E1^2)
[1] 0.3520701
で、ちょっと、気になることが・・・
期待値が1.76と計算されるんですよ。
97.5%までいっていないということですよね。
でも95%点の1.645は上回っています。
96.1%くらい。微妙な違いですね。
以前やったときは、ちゃんと正規確率紙に乗ったので、このプログラムは後半の部分で何か間違えている気がします。
累積点を出すときに、平均ランク補正かメディアンランク補正を掛けた気もします。
40個中39番目のデータの分布の形としては、たぶん正しいんですが、これが全データの何%点に相当するかというところでずれています。
この件、気になったら、閉じずに待っていて下さいね。
またまた、古いプログラムを探さなきゃ。
数日、掛かると思います。

No.8
- 回答日時:
式の右辺はそうなりますよ。
ですが、母集団とは一致しません。0~2まで変化する観測値の中央値の分布が出てきます。
さて、この式のxに-4~4までを刻んで代入してやってみましょう。
n,kは、n=2、k=1にします。
中央値の分布が出てくるはずです。
標準正規分布に変換しているので、平均は0です。
確率密度の山は、全体の分布の一部なので、合計が1になりません。
標準偏差を計算するときは、密度補正をして、全体の面積を1にします。
中央値の標準偏差は約0.67と計算されました。
これは、今のデータ幅は0~2の範囲なので、両端にラッパ状に広がり全範囲では標準偏差1で±3で分布するはずですので、中央値だけなら0.67程度でおおかた正しいのではないでしょうか。
以下は統計ソフトRでやっています。
> # データ数が1個の時のスターリングの式
>
> x <- seq(-4, 4, by = 0.01)
> y <- NULL
>
> for(i in x){
+ y <- append(y, choose(2, 1) * pnorm(i)^1 * (1 - pnorm(i))^1 * dnorm(i))
+ }
>
>
> # 確率密度補正
>
> y <- y / sum(y)
> plot(x, y)
>
> # 標準偏差
>
> E2 <- sum(x^2 * y)
> sqrt(E2 - 0^2)
[1] 0.6698291

No.7
- 回答日時:
左辺のdist(xk)とf(xk)は、意味の違いはありません。
k番目のxの密度関数の式の意味です。表記を変えてスミマセン。↓の上下で、計算値の正確さは変わりません。ただスターリングの式は何番目のxかという数値に気を使う必要があります。n=10のとき、5番目のデータは中央値にはなりません。
↓の下の式は、ただ単に、そういう数え方の式に変形しただけです。
データ数が99個のとき、n=100というように1個増やして計算するときに用いる、私が変形した式です。例えばデータが0~100で全範囲、両端から1個目(1個目と99個目)のデータについて、左右対称の分布が得られるようになっています。
No.6
- 回答日時:
正規分布に従うn個の標本の最大値の分布ですが、
スターニングの式を拡大解釈して、スターリングの式のnはそのままで、現在の観測個数をnー1個と考えます。
そして、0~nまでを100%とします。
すると、添付図のように式を変形できます。簡単に言えば、観測数より1個多めにするのです。
次に、実際の観測値は、簡単のために標準正規分布に基準化します。
すると、スターリングの式でn=100のとき、99個データがあるとすると、
・前から50番目(後ろからも50番目)は累積確率50%点になります。期待値は0です。
・最大値が99番目だとすると99番目のデータは累積確率は99%です。すると、最大値の期待値は、99%点は、2.3263σですから、この2.3263が期待値になります。1番目のデータは同様にー2.3263が期待値になります。
この期待値はnによって変わります。サンプルが39個しかなければ、39/40=97.5%点になり、期待値は1.96になります。
正規分布を扱っていれば、分かると思います。
次に、計算式によって分布形を計算します。方法としてはー∞から+∞までxを振って代入するんでしょうが、期待値±4くらいの範囲で細かく刻んで代入すれば良いです。ここでは、N(0,1)の累積確率F(x)、確率密度f(x)を使います。
計算された分布形は、添付図のように、1個目2個目と形が変わっていきます。この図は上側の分布形で、下側はこれとは対称になります。
なお、添付図はn≒1200くらいのケースの例です。
添付図は集団外れ値を検討したもので、上位2個や上位20個の合算した分布もありますが、無視して下さい。
標準偏差は、xを刻んで代入して出てきた数値を使って計算します。分布形が都度変わるので、標準偏差も都度計算する必要があり、一般形で示すことはできません(できるかもしれませんが私は数値計算しました)。

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 ある集団の平均身長を調べたい. 集団全体を母集団とし, 母集団から無作為抽出した15人の平均身長が1 1 2023/02/03 15:26
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 統計学 【統計】標本平均、標本標準偏差からt分布グラフ作成方法 9 2022/10/18 23:46
- 統計学 統計学についての質問です。 2標本問題で A: サイズ32 平均62.2 標準偏差11.0 B: サ 2 2023/02/08 14:15
- 統計学 統計学の問題です。 数学 51 49 23 77 78 56 44 37 7 29 80 61 36 1 2023/02/03 15:24
- 統計学 標準正規分布とt分布の認識はこれで合っていますか? 3 2023/05/07 20:00
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 統計学の質問【帰無仮説】 大学で、現在の在籍者の平均通学時間が60分であるという帰無仮説を、それが6 8 2023/05/23 20:56
- 統計学 不偏分散について 3 2022/03/29 15:57
今、見られている記事はコレ!
-
弁護士が語る「合法と違法を分けるオンラインカジノのシンプルな線引き」
「お金を賭けたら違法です」ーーこう答えたのは富士見坂法律事務所の井上義之弁護士。オンラインカジノが違法となるかどうかの基準は、このように非常にシンプルである。しかし2025年にはいって、違法賭博事件が相次...
-
釣りと密漁の違いは?知らなかったでは済まされない?事前にできることは?
知らなかったでは済まされないのが法律の世界であるが、全てを知ってから何かをするには少々手間がかかるし、最悪始めることすらできずに終わってしまうこともあり得る。教えてgooでも「釣りと密漁の境目はどこです...
-
カスハラとクレームの違いは?カスハラの法的責任は?企業がとるべき対応は?
東京都が、客からの迷惑行為などを称した「カスタマーハラスメント」、いわゆる「カスハラ」の防止を目的とした条例を、全国で初めて成立させた。条例に罰則はなく、2025年4月1日から施行される。 この動きは自治体...
-
なぜ批判コメントをするの?その心理と向き合い方をカウンセラーにきいた!
今や生活に必要不可欠となったインターネット。手軽に情報を得られるだけでなく、ネットを介したコミュニケーションも一般的となった。それと同時に顕在化しているのが、他者に対する辛らつな意見だ。ネットニュース...
-
大麻の使用罪がなかった理由や法改正での変更点、他国との違いを弁護士が解説
ドイツで2024年4月に大麻が合法化され、その2ヶ月後にサッカーEURO2024が行われた。その際、ドイツ警察は大会運営における治安維持の一つの方針として「アルコールを飲んでいるグループと、大麻を吸っているグループ...
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
アンケートの集計分析の基礎(...
-
エクセルのグラフから半値幅を...
-
パイロットサンプルって何ですか?
-
統計・社会調査報告書の読み方...
-
下の対数表示のグラフから低域...
-
検量線の決定係数について
-
線形なグラフとはひとくちに言...
-
標本化定理と周波数関係
-
誤差曲線
-
Rでnnetを用いて回帰分析を実装...
-
対数グラフ用紙に収まらない場...
-
高校 数学 aを実数の定数とする...
-
v-xグラフのようなものは描けま...
-
直線の傾き(回帰係数)から相...
-
こんにちは!今日中に締め切り...
-
統計学のサンプル数2000の根拠は?
-
全体の標準偏差についての質問...
-
DVDの事前学習が成績向上に有効...
-
統計学の質問です。2つの標本グ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
エクセルのグラフから半値幅を...
-
検量線の決定係数について
-
最小二乗法を反比例の式を元に...
-
パイロットサンプルって何ですか?
-
統計について
-
極値をもつ時と持たない時、単...
-
統計学のサンプル数2000の根拠は?
-
心理機能診断をしたのですが、...
-
変化率のみで、有意差の検定は...
-
【統計】有意に「高い」?「低...
-
線形なグラフとはひとくちに言...
-
グラフの"eye guide"について
-
下の対数表示のグラフから低域...
-
アンケートの集計分析の基礎(...
-
投稿論文を作成にあたり数年前...
-
死傷者数と死者数の違いって何...
-
エクセルの統計でχ二乗検定の結...
-
一元配置分散分析のp値が0になる
おすすめ情報
ありがとうございます。
すごいです。
最大値の場合、kを0にすべきか1にすべきか不明ということでしょうか?
この分布の標準偏差とか平均とかはいくつになるでしょうか?
最大値の場合、kをn-1にすべきかnにすべきか不明
ということですかね?
なかなか難しいのですが、下の方にある式の左辺がdistからfに変わったのはxkの分布がxの分布に等しいと仮定したという事でしょうか?
スターニングの式より矢印の下の式の方が正確という事でしょうか?
あまり詳しくないので申し訳ありません。
どうもありがとうございます。
観測数が1個の時は最大値の分布は母集団と同じで、kamiyasiroさんの数え方ではn=2となり最大値はk=1でx1となるかと思います。
↓の下の式の右辺は
2F(x)(1-F(x))f(x)
となります。母集団のxの分布f(x)と一致しません。どう考えたらよいしょうか?