プロが教えるわが家の防犯対策術!

中心極限定理についていろいろ調べたんですが、よくわからないことがあります。

(ほとんどの)任意の母集団(平均μ、分散σ^2)からn個の確率変数x1, x2, x3 .... xn を無作為抽出すると、平均値X を求めると、その平均値の分布は、nが大きくなると正規分布(平均μ、分散σ^2 / nの平方根)に近づく

と書いています。

ある母集団分布をおいて、n = 6 として、
サンプル1: x1, x2, x3, x4, x5, x6 を抽出し、平均値 X1 を求める
サンプル2: また、x1, x2, x3, x5, x6 を抽出し、平均値 X2 を求める
サンプル3: また、x1, x2, x3, x5, x6 を抽出し、平均値 X3 を求める

と同様に、やっていくのですよね?

で、この「1回に抽出するデータがn」(上記では n = 6)であり、この nが大きくなると正規分布に近づくということなんですが、

サンプル数(平均値Xの数)はいくつを想定しているのでしょうか?

サンプルが無限だったら、n = 2 だろうが、n = 100 だろうが正規分布のような気がするのですが。

いろいろなサイトで、

n = 1 や、n = 2 のケースでやったときの分布図が掲載されているのですが、これはサンプル自体の数が多いのでしょうか?

n の意味と、サンプルの数(平均値Xの数) が混乱しているようです。

教えてください。

A 回答 (2件)

質問文に「任意の母集団から」とか「抽出する」とか出てくることが


気になっていたのですが、「この行為を複数やって分布つくる」も
その流れですね。まず、そこの考え方が違うんだと思います。
母分布から x1,x2,…,xn を独立に取って X = (x1+x2+…+xn)/n とする
と決めた時点で、確率変数 X は定義され、X の分布は決まっています。
X のサンプルをいくつか取り出してヒストグラムを書くのは、
その分布をイメージしやすくするための単なる略図であって、
サンプルを抽出することで「分布をつくる」訳ではありません。
このあたり、確率モデルと記述統計がゴッチャになっているようです。
それが混乱の大元かもしれません。

それから、細かいことですが、その参照サイトで「サンプリング数」と
呼んでいるものは、この質問で n と呼んでいるもののことであり、
貴方が「サンプル数」と呼んでいる、ヒストグラムを書くために抽出した
X のデータの個数とは、異なります。ややこしいですね。

X の分布のヒストグラムを書くとき、データをそのままヒストグラムに
しており、データを足したり、データ数で割っていないことにも注目
してください。ヒストグラムの全データを足して、データ数で割ったら
どうなりますか? ヒストグラムで近似した分布の平均値になりますね。
それがどこにあるか が、データ数→∞ とすると、X の平均を平均とした
正規分布に従う というのが、中心極限定理の結果なのです。
    • good
    • 0
この回答へのお礼

御礼遅くなりました。

初学者向けの統計学の書籍をいろいろとあたってみました。
微妙にいろいろと説明の仕方が違うんですね。

説明として
x1, x2, ・・・・xn という n個のデータを取って、平均をとる、これを k回行う

という流れで、n を多くとってみる、というやり方と、k を多くとってみる、というやり方で、どちらも、同じような結果になる、といった説明もありました。

もっと勉強して、その意味するところを自分なりに理解したいと思っています。

きっちりとしたテキストを立ち読み (フェラー、伊藤清など)をしてみたら、そちらの方がよく理解できそうに思えたので、勉強してみます。

お礼日時:2011/08/21 14:59

中心極限定理を正確に書くと、


  分散が有限なひとつの確率分布に独立に従う n 個の確率変数 x1,x2,…,xn があるとする。
  その平均 X = (x1+x2+…+xn)/n の確率分布は、n→∞ のとき、正規分布へ分布収束する。
ということです。
確率変数 X の値を何個か取り出すという話は、中心極限定理とは関係ないですよ。

この回答への補足

回答ありがとうございます。

記述いただいた
「その平均 X = (x1+x2+…+xn)/n の確率分布は、n→∞ のとき、正規分布へ分布収束する。」
というのを実際に体感してみたくてエクセルなどでいじっているのですが、その際に、以下のサイトをみつけました。

http://anchoret.seesaa.net/article/65176557.html

このサイトでは、「サンプル数が1の場合」「サンプル数が2の場合」という具合にやって、その際の平均の分布をヒストグラムにしているのですが、例えばサンプル数が2というのは、元の母集団から無作為に2つの値を取り出しているというのはわかるのですが、じゃあこのヒストグラムはそういった行為を何回やってできたんだろうかと。

大数の法則と中心極限定理の理解が混乱しているのか・・・

「その平均 X = (x1+x2+…+xn)/n の確率分布は、n→∞ のとき、正規分布へ分布収束する」
の「分布」を n = 5 のとき、n = 100 ときといったようにそれぞれつくって体感してみたいのですが、例えば、n = 5 としたら、元の母集団分布から無作為に5つの値を取り出して、平均を計算するんですよね?
「平均」の「確率分布」なので、この行為を複数やって分布つくるんだと理解しているのですが、この時、そういった行為は何回やるのだろうかと?
無限にやったら、n = 5 でも正規分布に近くなると思うと、n = 100 のときと違わないだろう、だったら n -> ∞ で正規分布に分布収束する、という意味がよくわからない、という具合なんです。

補足日時:2011/08/18 23:26
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!