この文章の統計学的意味

Question

英文の統計学の教科書を読んでいます。その中にこの文章が出てきます。
Recall that given a set of n independent observations Z1,..., Zn, each with variance σ^2, the variance of the mean Z¯ of the observations is given by σ^2/n. In other words, averaging a set of observations reduces variance.
これはつまりどういうことでしょうか。n個の独立な観測Z1...Znのそれぞれに分散σ^2があり、それらの観測を平均した値の分散が1/nになるというのですが、なんのことを言っているのでしょうか。そもそも観測(サンプルの値)の一つ一つに分散があるというのがとてもおかしく聞こえます。これはそういうではなく、何か他のことを意味していると思うのですが、ピンとくる方はいらっしゃらないでしょうか。

yhr2 · Accepted Answer

No.3です。ご参考までに、No.3で述べたことを説明しているようなサイトを探してみました。

https://rstudio-pubs-static.s3.amazonaws.com/11679_adccc810394c42d8b66e5fb2813212e3.html
https://atarimae.biz/archives/9881

上のものが、ちょっと細かいけれど、「考え方」の説明も含めてわかりやすいかと思います。
「母集団」と「標本」の関係って結構面倒なのですが、これが「推測統計」という、「統計」が最も威力を発揮する部分なので、基本をしっかりと押さえておくとよいと思います。

drmuraberg · Answer

independent observation Zi のそれぞれ（each) が　variance σ^2 を有する
（σi^2では無く、i に依らずに同一）のですから、当然　”the variance of the mean 
Z¯ of the observations is given by σ^2/n.”　と成ります。
これを、σi^2が異なる一般的な "a set of observations Zi" に付いて
”In other words, averaging a set of observations reduces variance."と簡単に
は言えません。一例がそうであっても、一般的にもそうであるとの証明はより
難しく成ります。

drmuraberg · Answer

observation Zi と云うのは複数のデータから構成される「観察」Ziを意味します。
身長1.5m、1.6m、1.7mという3つのデータからなる「（この3人に付いての）
観察」の分散は0.01と云う事です。

多数の人を数グループに分け、それぞれをZiとしてその分散 σi ＾２を求めます。
そうすると、対象とする人の数が十分大きく、グループ数が適度なら、
σi＾２ ≒ σ＾２ となります。
Zi、i = 1・・n の「（同じような観察の） set 」の分散は、したがってσ＾２／ｎ
と成ります。

yhr2 · Answer

ここで言っている「分散 σ^2」は、母集団の分散（母分散）のことです。
そして、Z1～Zn はその母集団からとってきた「観測値」（標本）。当然、Z1～Zn は「１つずつ」です。

そうすれば、Z1～Zn から計算される「標本の平均 Zbar」は、「母集団の平均：μ」（母平均）に対して「σ^2 /n」の分散で分布するということです。これは「標本誤差分散」と呼ばれます。母集団なり、サンプル集団（Z1～Zn）そのものの分散ではなく、「母集団の平均」に対する「標本の平均」のばらつき（分散）であることに注意が必要です。

この平方根が「標本標準誤差：σ/√n」で、「分散」に対する「標準偏差」に対応します。
母集団の平均（例えば日本人全体の政党支持率）が分からない場合、任意抽出した1000人程度のサンプルから政党支持率 Xbar を求めて、母分散 σ^2 が分かっていれば（ふつうは分からないが）日本人全体の政党支持率を
　μ = Xbar ± σ/√n
で推定できます。これがいわゆる「世論調査」です。要するに、少数の標本から全体（母集団）を推定する手法です。調査人数 n が多いほど、精度よく「全体」を推測できることが、直感的にもわかりますよね？

通常は「母分散 σ^2 」は分からないので、これを「標本分散 s^2」で代用します。ただし、「標本分散 s^2」はその計算のもとになる「標本平均」自体に不確定さをもっているので、通常は
　s^2 *n/(n - 1)
にした「不偏分散」を使います。この辺も、テキストのどこかに出てくるでしょうね。

ちなみに、「補足」に挙げられた例でいえば
＞身長1.5m、1.6m、1.7mという3つの観測値があったとき、これらの平均は1.6m, 分散は0.01となりますが

はい。

＞それぞれの分散というとなんのことなのでしょうか。

「それぞれの分散」というのはあり得ません。この例でいうと、母集団（学校全体としましょう）の「母分散：0.02」が分かっているとすると、学校全体の平均身長 μ に対して、この3人の平均は
　　μ  ± σ/√n = μ  ± √(0.02/3) ≒ μ ± 0.08 (m)　　　①
の中に入っている（はず）という推定ができるということです。「0.08」が「標準偏差」に相当します。

「標準偏差」とは、正規分布の「68％」がその範囲に入るものなので、これを「95％」がその中に入る範囲、つまり「95％の信頼区間」にするには
　　μ ± 1.96σ
とすればよいことはご存知ですよね？　ここでは 1.96σ = 1.96 * 0.08 ≒ 0.16 ですから、①は
　　μ ± 0.16 (m)
ということになります。つまり、3人の平均値は95％の信頼度で
　　μ - 0.16 ≦ 1.6 (m) ≦ μ + 0.16
ということです。これから逆算すると、「学校全体の平均の95％信頼区間」は
　　1.44 ≦ μ ≦ 1.76 (m)
と推定できることになります。これは身長の分布ではなく、「学校全体の平均がこの範囲にある（はず）」（「はず」の確率は95％）という意味です。
範囲が大きいのは、サンプルが3個と少ないからです。サンプルを増やしていけば、この範囲はだんだん縮まって精度が上がっていきます。

この文章の統計学的意味

independent observation Zi のそれぞれ（each) が variance σ^2 を有する

observation Zi と云うのは複数のデータから構成される「観察」Ziを意味します。

ここで言っている「分散 σ^2」は、母集団の分散（母分散）のことです。

No.3です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

independent observation Zi のそれぞれ（each) が　variance σ^2 を有する