数学の論文で統計学が多く出てくるので、統計学を勉強しています。
ブートストラップ法について勉強しているのですが、ノンパラメトリックブートストラップ法を用いて統計量を推定する方法は以下で正しいのでしょうか?
例として、11個の標本{0,2,4,6,8,10,12,14,16,18,20}から母分散を推定するケースを考えます。
step1
11個の標本を復元抽出を行い11個の要素を取り出し、ブートストラップ標本をつくる。これを例として30回行う。
[10, 16, 0, 20, 14, 20, 14, 6, 8, 14, 12]
[10, 10, 4, 2, 2, 0, 12, 12, 12, 0, 8]
[10, 6, 10, 2, 8, 0, 2, 8, 2, 2, 16]
[10, 4, 6, 20, 12, 18, 18, 4, 2, 14, 20]
[20, 12, 12, 4, 2, 14, 2, 12, 4, 14, 6]
[6, 12, 10, 12, 0, 0, 10, 4, 6, 12, 20]
[16, 4, 6, 14, 10, 4, 12, 18, 10, 10, 14]
[12, 12, 12, 8, 10, 4, 10, 6, 4, 6, 10]
[20, 10, 8, 16, 0, 2, 18, 2, 16, 8, 12]
[12, 16, 14, 14, 2, 0, 4, 20, 8, 20, 12]
[4, 16, 18, 12, 6, 4, 8, 8, 18, 18, 6]
[18, 14, 2, 20, 14, 10, 2, 4, 0, 0, 10]
[4, 16, 4, 20, 16, 0, 16, 2, 20, 6, 10]
[16, 20, 6, 16, 18, 6, 2, 10, 8, 18, 2]
[20, 2, 12, 12, 16, 2, 18, 6, 14, 16, 0]
[0, 20, 0, 20, 20, 0, 10, 16, 4, 16, 16]
[18, 0, 12, 6, 6, 6, 16, 8, 6, 14, 20]
[8, 12, 14, 18, 6, 18, 2, 2, 10, 8, 4]
[14, 16, 10, 10, 12, 12, 12, 4, 6, 8, 16]
[6, 10, 0, 12, 14, 6, 20, 8, 6, 20, 20]
[6, 0, 14, 12, 4, 20, 6, 18, 6, 12, 0]
[6, 10, 6, 20, 20, 20, 10, 18, 4, 4, 0]
[14, 8, 4, 20, 16, 20, 12, 2, 10, 14, 10]
[20, 16, 20, 20, 16, 16, 8, 2, 2, 8, 6]
[2, 0, 20, 0, 16, 6, 18, 4, 2, 2, 14]
[8, 6, 16, 12, 0, 8, 4, 16, 2, 2, 8]
[16, 0, 8, 18, 2, 6, 16, 18, 8, 20, 14]
[14, 6, 8, 18, 10, 4, 16, 20, 10, 20, 20]
[6, 12, 12, 6, 14, 20, 16, 8, 12, 20, 20]
[6, 12, 14, 16, 16, 12, 10, 20, 0, 10, 10]
step2
それぞれのブートストラップ標本の「不偏分散」を求める。すると、
[35.564, 24.873, 24.000, 47.055, 35.418, 35.055, 21.818, 9.673, 47.564, 46.691, 33.818, 53.673, 55.855, 45.091, 49.818, 73.091, 38.764, 33.018, 14.691, 45.891, 45.891, 56.218, 33.964, 50.764, 59.855, 29.673, 48.073, 35.418, 28.218, 28.873]
average = 39.612となりました。
step3
step2で求めた不偏分散の平均値を取ると39.612となる。信頼区間はパーセンタイル法で取りますが、これは省略します。
元の標本{0,2,4,6,8,10,12,14,16,18,20}について、不偏分散を母分散と推定する場合、44.0と算出されます。しかし、私が考えているブートストラップ法のやり方では44より低い数値ばかりが出てしまいます。
標本が少なくて正確に数値が出ないだけなのか、それともやり方が間違っているのかよく分かりません。詳しい方、ご教授お願いできますでしょうか?
No.3ベストアンサー
- 回答日時:
#1です。
コメント、ありがとうございます。
>ブートストラップ標本は元標本の標本であり、かつ母集団の標本であるという認識ですが。
そういう意味ではなく、#2の投稿は「母集団の分散の計算と、標本の分散の計算が混ざってしまうのを避けて下さい」と言っています。
平均の分散var(E)=var(X)/n は「その11個の標本についての分散」であり、標本サイズが大きくなれば、標本平均は母集団のそれに漸近するということを意味しています。
一方、ご質問者が計算されていた不偏分散は、「母集団の分散」です。
だから、平均の分散を11個の分散としているなら、ブートストラップ標本の分散の方も11個の分散として計算して加えないと、標本の分散の計算と母集団の分散の計算とが混ざってしまいますよね。
補足の図の式は、その議論を回避するため「nとか(n-1)で割らない偏差平方和」で作られています。
なお、2番目の式の左辺の最後の項が平均の偏差平方和になっています。これが#1で指摘したことです。
ここで、最後の記述、「この式をn^2で割ると、・・・」に注目すると、
左辺は「標本分散」だと書いてあります。
右辺=(n-1)/n×(母分散の推定値の平均) については、(母分散の推定値の平均)は不偏分散の平均ですが、それは(n-1)で割られているので、一旦(n-1)を掛けて偏差平方和に戻して、nで割り直すことで、標本分散にしています。
そうすることで、式の両辺が「標本分散」という単位で一致します。
私の#2の指摘は、補足の図が言わんとしていることと同じです。
不偏分散を求めたければ、まずは、標本分散の単位で計算しておいてから、不偏分散に直すべきです。
あるいは、偏差平方和のレベルで行うか、ですが、これは合算値がオーバーフローするので、PCで計算するときは現実的ではありません。
No.2
- 回答日時:
#1です。
正確には、毎回の不偏分散ではなく標本分散の平均を推定して、平均の分散を加えたものを不偏分散に変換すべきです。
11を掛けて10で割り直せば良いです。
前の質問に続き、ご解説ありがとうございます。
お礼では画像を添付できないのですが、「毎回の不偏分散ではなく標本分散の平均を推定して、平均の分散を加えたものを不偏分散に変換すべき」というのは、補足の画像の意味で正しいでしょうか?
ブートストラップ標本は元標本の標本であり、かつ母集団の標本であるという認識ですが。
No.1
- 回答日時:
企業で統計を推進する立場の者です。
計算は正しいですが、重要なことを見落としていらっしゃます。
今回行われた試行は、「毎回の平均」を基準にして分散を求め、その分散を平均しています。
しかし、毎回の平均もばらついています!これが計算に含まれていません。
その分散はvar(E)=var(X)/n
つまり、39.612という分散は、母分散44をn=11で割った4という「平均の分散」が引かれた値(←分散の加法性より)になっているのです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 不偏分散について 3 2022/03/29 15:57
- 統計学 母集団分布を平均 μ, 分散 σ2 の正規分布と想定し, 母集団から無作為抽出した標本のデータ(標本 4 2023/01/30 20:25
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 統計学の問題です。教えてください(_ _) 数万人の有権者がいる選挙区で, 無作為に400人の標本を 2 2023/02/03 15:27
- 統計学 統計学を独学で勉強してます。 ページ左上に誤差分散の推定量の指揮があると思いますが(青いペン) 例題 2 2023/02/12 12:34
- 統計学 統計学を独学で勉強してます。 ページ左上に誤差分散の推定量の指揮があると思いますが(青いペン) 例題 5 2023/02/12 15:39
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 統計学 標本分散の求め方 1 2022/11/18 19:29
- 統計学 最近統計学について独学で勉強している者です。 mとnは二つの母集団から無作為抽出した際の標本のサイズ 2 2023/02/07 12:35
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
おすすめ情報
No.2の解説につきまして、以下の画像の認識で正しいでしょうか?
画像の式について、nΣ(X_B-X)^2の項がおかしいですね。申し訳ございません。
「X_B」ではなく「X_i」であり、Σの式の範囲もj=1からj=nではなく、i=1からi=nでした。
追加の訂正点です。
「ブートストラップ標本の標本平均は元の標本の平均」と書かれていますが、「「各ブートストラップ標本の標本平均」の平均が元の標本の平均と推定できる」でした。
最初の補足が間違えていました。
Σの式の範囲もi=1からi=Bでした。