プロが教えるわが家の防犯対策術!

ほぼ無限個の集団の中からn個のデータをサンプリングして平均値を取ります。そのサンプリングを何度も行うと平均値が数多く取得できるので、そのまた平均とか分散も計算できます。つまり(n個の平均)の平均、(n個の平均)の分散ということになります。

それら(平均と分散)の期待値は母平均、母分散の(1/n)倍となるようです。それは式を用いて説明することはできそうです。E[ ]とかV[ ]を使って説明していくようです。これらは統計の入門書でも載っています。知っている人は、ああ、あれねとなるはずです。

その説明で欠落しているように思えることなのですが、n個を取り出して平均をとる試行(サンプリング)の回数を用いて説明されないように思うのです(実際のデータで算出するイメージ)。つまりそのサンプリングをm回実施してその平均と分散を調べるという式の展開です。それが一番原始的で定義に沿った式の展開だと思うのですが。

例えばn個の平均は(1/n)Σxiですが、それはk回目の試行だったら(1/n)Σx_k,iと試行回数のインデックスkが付くはずだと思います(1=<k<=m サンプリングの総数m)。
そのため(1/m)Σ{(1/n)Σx_k,i}というような表現になると思います。表現としてΣの入れ子になるところが平均の平均ということです(Σのインデックスが明記されていないので想像していただくしかないですが)。
このような展開からこの分散が母分散の(1/n)倍なることが示せるでしょうか。
込み入っていて申し訳ありません。よろしくお願いします。

A 回答 (4件)

統計には、大きく分けて


(i) 得られたデータを集計・処理する「記述統計」
(ii) 限られたサンプルから、未知の「全体」を推定する「推測統計」
の2つがあることは認識されていますか?

統計を学ぶ目的は主に後者の「推測統計」にあり、そこが統計が本領を発揮する場です。
限られた数の製品サンプルから製品全体の品質を推定する、限られた人を対象としたアンケート調査から全体の意見や傾向を推測するなど。

質問者さんがおっしゃる

>その説明で欠落しているように思えることなのですが、n個を取り出して平均をとる試行(サンプリング)の回数を用いて説明されないように思うのです(実際のデータで算出するイメージ)。つまりそのサンプリングをm回実施してその平均と分散を調べるという式の展開です。それが一番原始的で定義に沿った式の展開だと思うのですが。

は、「記述統計」の議論であることは分かりますか?

これに対して、

>それら(平均と分散)の期待値は母平均、母分散の(1/n)倍となるようです。

は、得られたサンプルの「平均」と「分散」から、未知の母集団を推定するものだということがわかりますか? 通常は「母平均、母分散」は未知です。
(もしそれが分かっているなら「サンプル」を調べる意味がありませんから)
つまり、そこでは「推測統計」の議論をしているのです。

もちろん、「推測統計」のベースは「記述統計」から得られた「法則」や「定理」ですから、「記述統計」なしには成立しません。
しかし、質問者さんが書かれている部分では、すでに「記述統計」の議論から得られた「大数の法則、中心極限定理」などが成立するという前提で議論を進めているはずです。

↓ たとえば「中心極限定理」
https://bellcurve.jp/statistics/course/8543.html

つまりは

(a)「記述統計」 ←あなたが議論したいと言っているのはこの部分
 ↓
(b) 大数の法則、中心極限定理などの「法則」や「定理」の取得
 ↓
(c) それを前提とした「推測統計」 ←テキストに書いているのはこの部分
 (サンプルから母集団の推定)

ということで、あなたが「その説明で欠落しているように思えることなのですが」と言っていることは、上の (a) の話であり、サンプル/母集団の話は (c) の話です。

その辺の整理をして学ばないと、「何を勉強しているんだっけ?」ということになって「目的」を見失うことになります。
多分、テキストの各章の「はじめに」のところに、この章でやることは何かが書いてあると思いますので、そこを読み飛ばさずに、「今やっていることは何を目的としたものか、全体のどこに相当するのか」をきちんと認識して勉強を進めた方がよいと思います。
    • good
    • 0
この回答へのお礼

詳細に回答いただき、ありがとうございます。私もうすうすそういうことではないかなとは思っていました。ある初学者向けテキストを見ながら考えていたことのなのですが、平均とか分散は足して個数で割るという風の定義は示されているので”平均の平均”も当然ながらその定義に従って展開されているはずだと思っていました。何か新しいものが出てきたらそれはそこまでに出てきた概念と矛盾してはいけない、ちゃんと演繹されなければならない、という風に思えてしまいます。それが数学というものだと思います。その初学者向けのテキストにはそのような説明はないようです(ひょっとしたら著作の冒頭にちょこっとあるかもですが)。注意深く読むほど話が違っているということに気づく面が感じられます。実は統計には2つありまして...ということなのでしょうか。
 記述統計(a)と推測統計(c)についてはご説明で(a)→(b)→(c)とありました。(a)は(c)の川上にあります。(c)の議論を(a)に照らして考えることができないとか(c)によって(a)が否定されるとするならば、→は演繹の流れではなく、一般的に学習する順番ということになるのでしょうか。演繹の流れが止まると数学から遠のくように思えるのですが。
 余談ですが、数学専門の先生に別件で確率・統計について質問したことがあるのですが、数学としては異質なもので授業がやりにくい面があるとのことがありました。
 以前、ここで質問したことがありますが、標本分散は不偏分散だったり、そうじゃなかったりするようです。定義までブレがあると聞くとますます数学っぽいものから遠いように見えてくるのですが。

お礼日時:2020/09/23 12:02

No.1 です。

まだ解決しませんか?

あなたがタイトルに書いている「平均値の分散」というのがそもそも頓珍漢なのもであることにまだ気づきませんか?

>このような展開からこの分散が母分散の(1/n)倍なることが示せるでしょうか。

これがそもそも間違った認識なのですよ。

サンプルの「平均値の分散」なんて、誰も議論していません。
「サンプルの分散」(1つのサンプルですよ)から「母集団の分散」を推定し(その推定値が「サンプルから計算した不偏分散」です)、それに基づいて「母平均の信頼区間」を求めているのです。「母平均の信頼区間」とは「母平均はこの範囲内にある」という「推定値」です。
    • good
    • 0

#2さんへ



母平均の信頼区間とは、母集団からn個の標本を抽出し信頼区間を求める操作を何度も繰り返して行うと、そのうち95%の信頼区間が母集団の真の平均を含む、です。

「母平均が(95%の確率で)この範囲にある」は誤解を招きかねません。
    • good
    • 0

一般に、x[i](i=1~n)が確率密度φ[i](x)を持つ分布に従う互いに独立なサンプルであって、φ[i]の平均がμ[i]、分散がσ[i]^2であれば


  y = Σw[i]x[i] (Σはi=1~nの総和。以下同様)…(1)
は、平均Σw[i]μ[i]、分散Σ(w[i]^2)(σ[i]^2)の分布に従う。

 で、ご質問の場合、平均m、分散s^2の分布ξに従う互いに独立なサンプルx[i](i=1~n)の平均値Aをお考えである。このAを計算するには
  A = (1/n)Σx[i] …(2)
とやりますね。で、(1)式にw[i]=1/n、μ[i]=m、σ[i]^2 = s^2を代入すれば、(2)の右辺と同じになります。従って、Aは平均
  Σ((1/n)m) = n((1/n)m) = m、
分散
  Σ((1/n)^2)(s^2) = n((1/n)^2)(s^2) = (s^2)/n
の分布に従うわけです。

 ちなみに(1)のyの平均や分散がどうして分かるかというと、これは確率密度α, βを持つ分布にそれぞれ従う互いに独立な確率変数a,bについて、x=a+bが(α*β) に従うことからの帰結です。ただし* はconvolution(畳み込み)と呼ばれ、
  (α*β)(x) = ∫α(t)β(x-t) dt (∫はt = -∞〜∞の定積分)
です。そしてxが(α*β)に従うのは、「a+bの値がxであるということは、aがある値tであって同時にβの値が(x-t)であるということ。ただしtはどんな値でも良い」ということを素直に式にしたのがこの積分だからです。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!