アプリ版:「スタンプのみでお礼する」機能のリリースについて

英文の統計学の教科書を読んでいます。その中にこの文章が出てきます。
Recall that given a set of n independent observations Z1,..., Zn, each with variance σ^2, the variance of the mean Z¯ of the observations is given by σ^2/n. In other words, averaging a set of observations reduces variance.
これはつまりどういうことでしょうか。n個の独立な観測Z1...Znのそれぞれに分散σ^2があり、それらの観測を平均した値の分散が1/nになるというのですが、なんのことを言っているのでしょうか。そもそも観測(サンプルの値)の一つ一つに分散があるというのがとてもおかしく聞こえます。これはそういうではなく、何か他のことを意味していると思うのですが、ピンとくる方はいらっしゃらないでしょうか。

質問者からの補足コメント

  • ここでいうZiのそれぞれとは、データの一つ一つのことではないのですか?例えば身長1.5m、1.6m、1.7mという3つの観測値があったとき、これらの平均は1.6m, 分散は0.01となりますが、それぞれの分散というとなんのことなのでしょうか。単にデータ一つだけで分散を計算すれば0になります。

    No.1の回答に寄せられた補足コメントです。 補足日時:2017/10/04 03:38

A 回答 (4件)

independent observation Zi のそれぞれ(each) が variance σ^2 を有する


(σi^2では無く、i に依らずに同一)のですから、当然 ”the variance of the mean
Z¯ of the observations is given by σ^2/n.” と成ります。
これを、σi^2が異なる一般的な "a set of observations Zi" に付いて
”In other words, averaging a set of observations reduces variance."と簡単に
は言えません。一例がそうであっても、一般的にもそうであるとの証明はより
難しく成ります。
この回答への補足あり
    • good
    • 0

observation Zi と云うのは複数のデータから構成される「観察」Ziを意味します。


身長1.5m、1.6m、1.7mという3つのデータからなる「(この3人に付いての)
観察」の分散は0.01と云う事です。

多数の人を数グループに分け、それぞれをZiとしてその分散 σi ^2を求めます。
そうすると、対象とする人の数が十分大きく、グループ数が適度なら、
σi^2 ≒ σ^2 となります。
Zi、i = 1・・n の「(同じような観察の) set 」の分散は、したがってσ^2/n
と成ります。
    • good
    • 0

ここで言っている「分散 σ^2」は、母集団の分散(母分散)のことです。


そして、Z1~Zn はその母集団からとってきた「観測値」(標本)。当然、Z1~Zn は「1つずつ」です。

そうすれば、Z1~Zn から計算される「標本の平均 Zbar」は、「母集団の平均:μ」(母平均)に対して「σ^2 /n」の分散で分布するということです。これは「標本誤差分散」と呼ばれます。母集団なり、サンプル集団(Z1~Zn)そのものの分散ではなく、「母集団の平均」に対する「標本の平均」のばらつき(分散)であることに注意が必要です。

この平方根が「標本標準誤差:σ/√n」で、「分散」に対する「標準偏差」に対応します。
母集団の平均(例えば日本人全体の政党支持率)が分からない場合、任意抽出した1000人程度のサンプルから政党支持率 Xbar を求めて、母分散 σ^2 が分かっていれば(ふつうは分からないが)日本人全体の政党支持率を
 μ = Xbar ± σ/√n
で推定できます。これがいわゆる「世論調査」です。要するに、少数の標本から全体(母集団)を推定する手法です。調査人数 n が多いほど、精度よく「全体」を推測できることが、直感的にもわかりますよね?

通常は「母分散 σ^2 」は分からないので、これを「標本分散 s^2」で代用します。ただし、「標本分散 s^2」はその計算のもとになる「標本平均」自体に不確定さをもっているので、通常は
 s^2 *n/(n - 1)
にした「不偏分散」を使います。この辺も、テキストのどこかに出てくるでしょうね。


ちなみに、「補足」に挙げられた例でいえば
>身長1.5m、1.6m、1.7mという3つの観測値があったとき、これらの平均は1.6m, 分散は0.01となりますが

はい。

>それぞれの分散というとなんのことなのでしょうか。

「それぞれの分散」というのはあり得ません。この例でいうと、母集団(学校全体としましょう)の「母分散:0.02」が分かっているとすると、学校全体の平均身長 μ に対して、この3人の平均は
  μ ± σ/√n = μ ± √(0.02/3) ≒ μ ± 0.08 (m)   ①
の中に入っている(はず)という推定ができるということです。「0.08」が「標準偏差」に相当します。

 「標準偏差」とは、正規分布の「68%」がその範囲に入るものなので、これを「95%」がその中に入る範囲、つまり「95%の信頼区間」にするには
  μ ± 1.96σ
とすればよいことはご存知ですよね? ここでは 1.96σ = 1.96 * 0.08 ≒ 0.16 ですから、①は
  μ ± 0.16 (m)
ということになります。つまり、3人の平均値は95%の信頼度で
  μ - 0.16 ≦ 1.6 (m) ≦ μ + 0.16
ということです。これから逆算すると、「学校全体の平均の95%信頼区間」は
  1.44 ≦ μ ≦ 1.76 (m)
と推定できることになります。これは身長の分布ではなく、「学校全体の平均がこの範囲にある(はず)」(「はず」の確率は95%)という意味です。
範囲が大きいのは、サンプルが3個と少ないからです。サンプルを増やしていけば、この範囲はだんだん縮まって精度が上がっていきます。
    • good
    • 0

No.3です。

ご参考までに、No.3で述べたことを説明しているようなサイトを探してみました。

https://rstudio-pubs-static.s3.amazonaws.com/116 …
https://atarimae.biz/archives/9881

上のものが、ちょっと細かいけれど、「考え方」の説明も含めてわかりやすいかと思います。
「母集団」と「標本」の関係って結構面倒なのですが、これが「推測統計」という、「統計」が最も威力を発揮する部分なので、基本をしっかりと押さえておくとよいと思います。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!