英文の統計学の教科書を読んでいます。その中にこの文章が出てきます。
Recall that given a set of n independent observations Z1,..., Zn, each with variance σ^2, the variance of the mean Z¯ of the observations is given by σ^2/n. In other words, averaging a set of observations reduces variance.
これはつまりどういうことでしょうか。n個の独立な観測Z1...Znのそれぞれに分散σ^2があり、それらの観測を平均した値の分散が1/nになるというのですが、なんのことを言っているのでしょうか。そもそも観測(サンプルの値)の一つ一つに分散があるというのがとてもおかしく聞こえます。これはそういうではなく、何か他のことを意味していると思うのですが、ピンとくる方はいらっしゃらないでしょうか。
No.1
- 回答日時:
independent observation Zi のそれぞれ(each) が variance σ^2 を有する
(σi^2では無く、i に依らずに同一)のですから、当然 ”the variance of the mean
Z¯ of the observations is given by σ^2/n.” と成ります。
これを、σi^2が異なる一般的な "a set of observations Zi" に付いて
”In other words, averaging a set of observations reduces variance."と簡単に
は言えません。一例がそうであっても、一般的にもそうであるとの証明はより
難しく成ります。
No.2
- 回答日時:
observation Zi と云うのは複数のデータから構成される「観察」Ziを意味します。
身長1.5m、1.6m、1.7mという3つのデータからなる「(この3人に付いての)
観察」の分散は0.01と云う事です。
多数の人を数グループに分け、それぞれをZiとしてその分散 σi ^2を求めます。
そうすると、対象とする人の数が十分大きく、グループ数が適度なら、
σi^2 ≒ σ^2 となります。
Zi、i = 1・・n の「(同じような観察の) set 」の分散は、したがってσ^2/n
と成ります。
No.3
- 回答日時:
ここで言っている「分散 σ^2」は、母集団の分散(母分散)のことです。
そして、Z1~Zn はその母集団からとってきた「観測値」(標本)。当然、Z1~Zn は「1つずつ」です。
そうすれば、Z1~Zn から計算される「標本の平均 Zbar」は、「母集団の平均:μ」(母平均)に対して「σ^2 /n」の分散で分布するということです。これは「標本誤差分散」と呼ばれます。母集団なり、サンプル集団(Z1~Zn)そのものの分散ではなく、「母集団の平均」に対する「標本の平均」のばらつき(分散)であることに注意が必要です。
この平方根が「標本標準誤差:σ/√n」で、「分散」に対する「標準偏差」に対応します。
母集団の平均(例えば日本人全体の政党支持率)が分からない場合、任意抽出した1000人程度のサンプルから政党支持率 Xbar を求めて、母分散 σ^2 が分かっていれば(ふつうは分からないが)日本人全体の政党支持率を
μ = Xbar ± σ/√n
で推定できます。これがいわゆる「世論調査」です。要するに、少数の標本から全体(母集団)を推定する手法です。調査人数 n が多いほど、精度よく「全体」を推測できることが、直感的にもわかりますよね?
通常は「母分散 σ^2 」は分からないので、これを「標本分散 s^2」で代用します。ただし、「標本分散 s^2」はその計算のもとになる「標本平均」自体に不確定さをもっているので、通常は
s^2 *n/(n - 1)
にした「不偏分散」を使います。この辺も、テキストのどこかに出てくるでしょうね。
ちなみに、「補足」に挙げられた例でいえば
>身長1.5m、1.6m、1.7mという3つの観測値があったとき、これらの平均は1.6m, 分散は0.01となりますが
はい。
>それぞれの分散というとなんのことなのでしょうか。
「それぞれの分散」というのはあり得ません。この例でいうと、母集団(学校全体としましょう)の「母分散:0.02」が分かっているとすると、学校全体の平均身長 μ に対して、この3人の平均は
μ ± σ/√n = μ ± √(0.02/3) ≒ μ ± 0.08 (m) ①
の中に入っている(はず)という推定ができるということです。「0.08」が「標準偏差」に相当します。
「標準偏差」とは、正規分布の「68%」がその範囲に入るものなので、これを「95%」がその中に入る範囲、つまり「95%の信頼区間」にするには
μ ± 1.96σ
とすればよいことはご存知ですよね? ここでは 1.96σ = 1.96 * 0.08 ≒ 0.16 ですから、①は
μ ± 0.16 (m)
ということになります。つまり、3人の平均値は95%の信頼度で
μ - 0.16 ≦ 1.6 (m) ≦ μ + 0.16
ということです。これから逆算すると、「学校全体の平均の95%信頼区間」は
1.44 ≦ μ ≦ 1.76 (m)
と推定できることになります。これは身長の分布ではなく、「学校全体の平均がこの範囲にある(はず)」(「はず」の確率は95%)という意味です。
範囲が大きいのは、サンプルが3個と少ないからです。サンプルを増やしていけば、この範囲はだんだん縮まって精度が上がっていきます。
No.4ベストアンサー
- 回答日時:
No.3です。
ご参考までに、No.3で述べたことを説明しているようなサイトを探してみました。https://rstudio-pubs-static.s3.amazonaws.com/116 …
https://atarimae.biz/archives/9881
上のものが、ちょっと細かいけれど、「考え方」の説明も含めてわかりやすいかと思います。
「母集団」と「標本」の関係って結構面倒なのですが、これが「推測統計」という、「統計」が最も威力を発揮する部分なので、基本をしっかりと押さえておくとよいと思います。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 英語 Therefore, in just over half the cases, this surgi 4 2022/05/23 00:58
- 英語 Given that all patients had scores of zero on the 2 2022/05/16 17:44
- 英語 lead on Earth,” の意味の取り方 6 2022/12/06 10:52
- 英語 課題でこの英語の文章のSVOの分析や()等の括りを出されたため、できるだけ完璧にしたいのですが、自身 1 2022/12/16 13:29
- 英語 There is evidence in the literature that the peri- 3 2022/06/08 07:57
- TOEFL・TOEIC・英語検定 英検1級の英作文の作り方について 1 2023/05/07 06:35
- 英語 提示文の"done"と"taken"の意味の違いについて 3 2022/03/22 14:28
- 英語 英語翻訳 2 2022/06/26 18:56
- 英語 Therefore, it appears to be more logical to avoid 2 2022/07/05 15:31
- 英語 従属節であるwhen節と主節の2文について、内容からどちらを主節にするかの判断基準について 1 2023/01/04 14:50
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
応答で層別した場合の検定について
-
EXCELにてローパスフィルタを作...
-
心理機能診断をしたのですが、...
-
下の対数表示のグラフから低域...
-
エクセルのグラフから半値幅を...
-
脳波(EEG)の周波数は0.5~60Hzで...
-
検量線の決定係数について
-
極値をもつ時と持たない時、単...
-
ポアソン回帰でのカウントデー...
-
検定統計量の値がマイナス
-
統計学 カイ二乗検定とt検定の...
-
数3の複素数です 12分の25πが12...
-
t検定の使いどころ
-
片対数グラフで…
-
両対数グラフでの直線式の求め方
-
高校 数学 aを実数の定数とする...
-
最小二乗法を反比例の式を元に...
-
t検定の記述の仕方を教えてくだ...
-
パイロットサンプルって何ですか?
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
エクセルのグラフから半値幅を...
-
x^2+y^2はどのような分布をする?
-
検定統計量の値がマイナス
-
統計について
-
【統計】有意に「高い」?「低...
-
統計学の基本的なことについて...
-
最小二乗法を反比例の式を元に...
-
心理学の統計について
-
ポアソン回帰でのカウントデー...
-
[Excel] リストからの無作為抽出
-
対数グラフの対数とは・・・?
-
極値をもつ時と持たない時、単...
-
対数目盛の読み方を教えてください
-
溶解度の問題 理科
-
正規分布について
おすすめ情報
ここでいうZiのそれぞれとは、データの一つ一つのことではないのですか?例えば身長1.5m、1.6m、1.7mという3つの観測値があったとき、これらの平均は1.6m, 分散は0.01となりますが、それぞれの分散というとなんのことなのでしょうか。単にデータ一つだけで分散を計算すれば0になります。