プロが教えるわが家の防犯対策術!

数学の論文で統計学が多く出てくるので、統計学を勉強しています。

ブートストラップ法について勉強しているのですが、ノンパラメトリックブートストラップ法を用いて統計量を推定する方法は以下で正しいのでしょうか?

例として、11個の標本{0,2,4,6,8,10,12,14,16,18,20}から母分散を推定するケースを考えます。

step1
11個の標本を復元抽出を行い11個の要素を取り出し、ブートストラップ標本をつくる。これを例として30回行う。

[10, 16, 0, 20, 14, 20, 14, 6, 8, 14, 12]
[10, 10, 4, 2, 2, 0, 12, 12, 12, 0, 8]
[10, 6, 10, 2, 8, 0, 2, 8, 2, 2, 16]
[10, 4, 6, 20, 12, 18, 18, 4, 2, 14, 20]
[20, 12, 12, 4, 2, 14, 2, 12, 4, 14, 6]
[6, 12, 10, 12, 0, 0, 10, 4, 6, 12, 20]
[16, 4, 6, 14, 10, 4, 12, 18, 10, 10, 14]
[12, 12, 12, 8, 10, 4, 10, 6, 4, 6, 10]
[20, 10, 8, 16, 0, 2, 18, 2, 16, 8, 12]
[12, 16, 14, 14, 2, 0, 4, 20, 8, 20, 12]
[4, 16, 18, 12, 6, 4, 8, 8, 18, 18, 6]
[18, 14, 2, 20, 14, 10, 2, 4, 0, 0, 10]
[4, 16, 4, 20, 16, 0, 16, 2, 20, 6, 10]
[16, 20, 6, 16, 18, 6, 2, 10, 8, 18, 2]
[20, 2, 12, 12, 16, 2, 18, 6, 14, 16, 0]
[0, 20, 0, 20, 20, 0, 10, 16, 4, 16, 16]
[18, 0, 12, 6, 6, 6, 16, 8, 6, 14, 20]
[8, 12, 14, 18, 6, 18, 2, 2, 10, 8, 4]
[14, 16, 10, 10, 12, 12, 12, 4, 6, 8, 16]
[6, 10, 0, 12, 14, 6, 20, 8, 6, 20, 20]
[6, 0, 14, 12, 4, 20, 6, 18, 6, 12, 0]
[6, 10, 6, 20, 20, 20, 10, 18, 4, 4, 0]
[14, 8, 4, 20, 16, 20, 12, 2, 10, 14, 10]
[20, 16, 20, 20, 16, 16, 8, 2, 2, 8, 6]
[2, 0, 20, 0, 16, 6, 18, 4, 2, 2, 14]
[8, 6, 16, 12, 0, 8, 4, 16, 2, 2, 8]
[16, 0, 8, 18, 2, 6, 16, 18, 8, 20, 14]
[14, 6, 8, 18, 10, 4, 16, 20, 10, 20, 20]
[6, 12, 12, 6, 14, 20, 16, 8, 12, 20, 20]
[6, 12, 14, 16, 16, 12, 10, 20, 0, 10, 10]

step2
それぞれのブートストラップ標本の「不偏分散」を求める。すると、
[35.564, 24.873, 24.000, 47.055, 35.418, 35.055, 21.818, 9.673, 47.564, 46.691, 33.818, 53.673, 55.855, 45.091, 49.818, 73.091, 38.764, 33.018, 14.691, 45.891, 45.891, 56.218, 33.964, 50.764, 59.855, 29.673, 48.073, 35.418, 28.218, 28.873]
average = 39.612となりました。

step3
step2で求めた不偏分散の平均値を取ると39.612となる。信頼区間はパーセンタイル法で取りますが、これは省略します。

元の標本{0,2,4,6,8,10,12,14,16,18,20}について、不偏分散を母分散と推定する場合、44.0と算出されます。しかし、私が考えているブートストラップ法のやり方では44より低い数値ばかりが出てしまいます。

標本が少なくて正確に数値が出ないだけなのか、それともやり方が間違っているのかよく分かりません。詳しい方、ご教授お願いできますでしょうか?

質問者からの補足コメント

  • No.2の解説につきまして、以下の画像の認識で正しいでしょうか?

    「数理統計学の手法「ブートストラップ法」に」の補足画像1
      補足日時:2021/06/19 22:49
  • 画像の式について、nΣ(X_B-X)^2の項がおかしいですね。申し訳ございません。
    「X_B」ではなく「X_i」であり、Σの式の範囲もj=1からj=nではなく、i=1からi=nでした。

      補足日時:2021/06/19 22:53
  • 追加の訂正点です。
    「ブートストラップ標本の標本平均は元の標本の平均」と書かれていますが、「「各ブートストラップ標本の標本平均」の平均が元の標本の平均と推定できる」でした。

      補足日時:2021/06/19 23:52
  • 最初の補足が間違えていました。
    Σの式の範囲もi=1からi=Bでした。

      補足日時:2021/06/19 23:58

A 回答 (3件)

#1です。



コメント、ありがとうございます。

>ブートストラップ標本は元標本の標本であり、かつ母集団の標本であるという認識ですが。

そういう意味ではなく、#2の投稿は「母集団の分散の計算と、標本の分散の計算が混ざってしまうのを避けて下さい」と言っています。

平均の分散var(E)=var(X)/n は「その11個の標本についての分散」であり、標本サイズが大きくなれば、標本平均は母集団のそれに漸近するということを意味しています。

一方、ご質問者が計算されていた不偏分散は、「母集団の分散」です。

だから、平均の分散を11個の分散としているなら、ブートストラップ標本の分散の方も11個の分散として計算して加えないと、標本の分散の計算と母集団の分散の計算とが混ざってしまいますよね。

補足の図の式は、その議論を回避するため「nとか(n-1)で割らない偏差平方和」で作られています。

なお、2番目の式の左辺の最後の項が平均の偏差平方和になっています。これが#1で指摘したことです。

ここで、最後の記述、「この式をn^2で割ると、・・・」に注目すると、
左辺は「標本分散」だと書いてあります。
右辺=(n-1)/n×(母分散の推定値の平均) については、(母分散の推定値の平均)は不偏分散の平均ですが、それは(n-1)で割られているので、一旦(n-1)を掛けて偏差平方和に戻して、nで割り直すことで、標本分散にしています。
そうすることで、式の両辺が「標本分散」という単位で一致します。

私の#2の指摘は、補足の図が言わんとしていることと同じです。
不偏分散を求めたければ、まずは、標本分散の単位で計算しておいてから、不偏分散に直すべきです。

あるいは、偏差平方和のレベルで行うか、ですが、これは合算値がオーバーフローするので、PCで計算するときは現実的ではありません。
    • good
    • 1
この回答へのお礼

補足の質問にもご回答いただきましてありがとうございました。
これを踏まえてもう1度計算を実行してみたいと思います。

お礼日時:2021/06/20 10:38

#1です。



正確には、毎回の不偏分散ではなく標本分散の平均を推定して、平均の分散を加えたものを不偏分散に変換すべきです。

11を掛けて10で割り直せば良いです。
    • good
    • 2
この回答へのお礼

前の質問に続き、ご解説ありがとうございます。

お礼では画像を添付できないのですが、「毎回の不偏分散ではなく標本分散の平均を推定して、平均の分散を加えたものを不偏分散に変換すべき」というのは、補足の画像の意味で正しいでしょうか?

ブートストラップ標本は元標本の標本であり、かつ母集団の標本であるという認識ですが。

お礼日時:2021/06/19 22:50

企業で統計を推進する立場の者です。



計算は正しいですが、重要なことを見落としていらっしゃます。

今回行われた試行は、「毎回の平均」を基準にして分散を求め、その分散を平均しています。

しかし、毎回の平均もばらついています!これが計算に含まれていません。

その分散はvar(E)=var(X)/n

つまり、39.612という分散は、母分散44をn=11で割った4という「平均の分散」が引かれた値(←分散の加法性より)になっているのです。
    • good
    • 2

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!