ほぼ無限個の集団の中からn個のデータをサンプリングして平均値を取ります。そのサンプリングを何度も行うと平均値が数多く取得できるので、そのまた平均とか分散も計算できます。つまり(n個の平均)の平均、(n個の平均)の分散ということになります。
それら(平均と分散)の期待値は母平均、母分散の(1/n)倍となるようです。それは式を用いて説明することはできそうです。E[ ]とかV[ ]を使って説明していくようです。これらは統計の入門書でも載っています。知っている人は、ああ、あれねとなるはずです。
その説明で欠落しているように思えることなのですが、n個を取り出して平均をとる試行(サンプリング)の回数を用いて説明されないように思うのです(実際のデータで算出するイメージ)。つまりそのサンプリングをm回実施してその平均と分散を調べるという式の展開です。それが一番原始的で定義に沿った式の展開だと思うのですが。
例えばn個の平均は(1/n)Σxiですが、それはk回目の試行だったら(1/n)Σx_k,iと試行回数のインデックスkが付くはずだと思います(1=<k<=m サンプリングの総数m)。
そのため(1/m)Σ{(1/n)Σx_k,i}というような表現になると思います。表現としてΣの入れ子になるところが平均の平均ということです(Σのインデックスが明記されていないので想像していただくしかないですが)。
このような展開からこの分散が母分散の(1/n)倍なることが示せるでしょうか。
込み入っていて申し訳ありません。よろしくお願いします。
A 回答 (4件)
- 最新から表示
- 回答順に表示
No.4
- 回答日時:
一般に、x[i](i=1~n)が確率密度φ[i](x)を持つ分布に従う互いに独立なサンプルであって、φ[i]の平均がμ[i]、分散がσ[i]^2であれば
y = Σw[i]x[i] (Σはi=1~nの総和。以下同様)…(1)
は、平均Σw[i]μ[i]、分散Σ(w[i]^2)(σ[i]^2)の分布に従う。
で、ご質問の場合、平均m、分散s^2の分布ξに従う互いに独立なサンプルx[i](i=1~n)の平均値Aをお考えである。このAを計算するには
A = (1/n)Σx[i] …(2)
とやりますね。で、(1)式にw[i]=1/n、μ[i]=m、σ[i]^2 = s^2を代入すれば、(2)の右辺と同じになります。従って、Aは平均
Σ((1/n)m) = n((1/n)m) = m、
分散
Σ((1/n)^2)(s^2) = n((1/n)^2)(s^2) = (s^2)/n
の分布に従うわけです。
ちなみに(1)のyの平均や分散がどうして分かるかというと、これは確率密度α, βを持つ分布にそれぞれ従う互いに独立な確率変数a,bについて、x=a+bが(α*β) に従うことからの帰結です。ただし* はconvolution(畳み込み)と呼ばれ、
(α*β)(x) = ∫α(t)β(x-t) dt (∫はt = -∞〜∞の定積分)
です。そしてxが(α*β)に従うのは、「a+bの値がxであるということは、aがある値tであって同時にβの値が(x-t)であるということ。ただしtはどんな値でも良い」ということを素直に式にしたのがこの積分だからです。
No.3
- 回答日時:
#2さんへ
母平均の信頼区間とは、母集団からn個の標本を抽出し信頼区間を求める操作を何度も繰り返して行うと、そのうち95%の信頼区間が母集団の真の平均を含む、です。
「母平均が(95%の確率で)この範囲にある」は誤解を招きかねません。
No.2
- 回答日時:
No.1 です。
まだ解決しませんか?あなたがタイトルに書いている「平均値の分散」というのがそもそも頓珍漢なのもであることにまだ気づきませんか?
>このような展開からこの分散が母分散の(1/n)倍なることが示せるでしょうか。
これがそもそも間違った認識なのですよ。
サンプルの「平均値の分散」なんて、誰も議論していません。
「サンプルの分散」(1つのサンプルですよ)から「母集団の分散」を推定し(その推定値が「サンプルから計算した不偏分散」です)、それに基づいて「母平均の信頼区間」を求めているのです。「母平均の信頼区間」とは「母平均はこの範囲内にある」という「推定値」です。
No.1
- 回答日時:
統計には、大きく分けて
(i) 得られたデータを集計・処理する「記述統計」
(ii) 限られたサンプルから、未知の「全体」を推定する「推測統計」
の2つがあることは認識されていますか?
統計を学ぶ目的は主に後者の「推測統計」にあり、そこが統計が本領を発揮する場です。
限られた数の製品サンプルから製品全体の品質を推定する、限られた人を対象としたアンケート調査から全体の意見や傾向を推測するなど。
質問者さんがおっしゃる
>その説明で欠落しているように思えることなのですが、n個を取り出して平均をとる試行(サンプリング)の回数を用いて説明されないように思うのです(実際のデータで算出するイメージ)。つまりそのサンプリングをm回実施してその平均と分散を調べるという式の展開です。それが一番原始的で定義に沿った式の展開だと思うのですが。
は、「記述統計」の議論であることは分かりますか?
これに対して、
>それら(平均と分散)の期待値は母平均、母分散の(1/n)倍となるようです。
は、得られたサンプルの「平均」と「分散」から、未知の母集団を推定するものだということがわかりますか? 通常は「母平均、母分散」は未知です。
(もしそれが分かっているなら「サンプル」を調べる意味がありませんから)
つまり、そこでは「推測統計」の議論をしているのです。
もちろん、「推測統計」のベースは「記述統計」から得られた「法則」や「定理」ですから、「記述統計」なしには成立しません。
しかし、質問者さんが書かれている部分では、すでに「記述統計」の議論から得られた「大数の法則、中心極限定理」などが成立するという前提で議論を進めているはずです。
↓ たとえば「中心極限定理」
https://bellcurve.jp/statistics/course/8543.html
つまりは
(a)「記述統計」 ←あなたが議論したいと言っているのはこの部分
↓
(b) 大数の法則、中心極限定理などの「法則」や「定理」の取得
↓
(c) それを前提とした「推測統計」 ←テキストに書いているのはこの部分
(サンプルから母集団の推定)
ということで、あなたが「その説明で欠落しているように思えることなのですが」と言っていることは、上の (a) の話であり、サンプル/母集団の話は (c) の話です。
その辺の整理をして学ばないと、「何を勉強しているんだっけ?」ということになって「目的」を見失うことになります。
多分、テキストの各章の「はじめに」のところに、この章でやることは何かが書いてあると思いますので、そこを読み飛ばさずに、「今やっていることは何を目的としたものか、全体のどこに相当するのか」をきちんと認識して勉強を進めた方がよいと思います。
詳細に回答いただき、ありがとうございます。私もうすうすそういうことではないかなとは思っていました。ある初学者向けテキストを見ながら考えていたことのなのですが、平均とか分散は足して個数で割るという風の定義は示されているので”平均の平均”も当然ながらその定義に従って展開されているはずだと思っていました。何か新しいものが出てきたらそれはそこまでに出てきた概念と矛盾してはいけない、ちゃんと演繹されなければならない、という風に思えてしまいます。それが数学というものだと思います。その初学者向けのテキストにはそのような説明はないようです(ひょっとしたら著作の冒頭にちょこっとあるかもですが)。注意深く読むほど話が違っているということに気づく面が感じられます。実は統計には2つありまして...ということなのでしょうか。
記述統計(a)と推測統計(c)についてはご説明で(a)→(b)→(c)とありました。(a)は(c)の川上にあります。(c)の議論を(a)に照らして考えることができないとか(c)によって(a)が否定されるとするならば、→は演繹の流れではなく、一般的に学習する順番ということになるのでしょうか。演繹の流れが止まると数学から遠のくように思えるのですが。
余談ですが、数学専門の先生に別件で確率・統計について質問したことがあるのですが、数学としては異質なもので授業がやりにくい面があるとのことがありました。
以前、ここで質問したことがありますが、標本分散は不偏分散だったり、そうじゃなかったりするようです。定義までブレがあると聞くとますます数学っぽいものから遠いように見えてくるのですが。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 大学・短大 大学 統計学 1 2022/09/14 11:27
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 数学 【 数I 分散 】 3 2023/02/26 21:55
- 数学 【 数Ⅰ 分散 】 問題 20個の値からなるデータがあり, そのうちの8個の値の平均値は3,分散は4 4 2023/02/15 23:28
- 統計学 加重最小二乗法=①「変数を自然対数変換」=②「誤差項の分散の逆数を重み付け」? 8 2022/11/26 11:15
- 統計学 不偏分散について 3 2022/03/29 15:57
- 統計学 統計学が分かりません!詳しい解説と回答を教えてくださる方お願いいします! 5 2022/08/23 03:10
- 統計学 確率統計の問題です。 3 2022/04/07 04:39
- 数学 数学の問題です。 問1: ある(人数の非常に多い)集団から無作為に6名を選んで身長を測ったところ、そ 2 2022/12/09 12:03
- 統計学 生物統計学の質問 7 2022/05/17 13:59
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
脳波(EEG)の周波数は0.5~60Hzで...
-
エクセルのグラフから半値幅を...
-
ポアソン回帰でのカウントデー...
-
心理機能診断をしたのですが、...
-
数3の複素数です 12分の25πが12...
-
統計について
-
下の対数表示のグラフから低域...
-
x^2+y^2はどのような分布をする?
-
法学検定アドバンストはどのく...
-
検量線の決定係数について
-
パイロットサンプルって何ですか?
-
エクセルでランダム関数で乱数...
-
EXCELにてローパスフィルタを作...
-
t検定の使いどころ
-
[Excel] リストからの無作為抽出
-
ナイキスト周波数に関して
-
検定の質問です。 有意水準5%、...
-
フーリエ変換の質問です。 一定...
-
単回帰分析と重回帰分析の結果...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
EXCELにてローパスフィルタを作...
-
サンプル数の異なる2群間にお...
-
心理機能診断をしたのですが、...
-
検量線の決定係数について
-
下の対数表示のグラフから低域...
-
エクセルのグラフから半値幅を...
-
x^2+y^2はどのような分布をする?
-
検定統計量の値がマイナス
-
統計について
-
【統計】有意に「高い」?「低...
-
統計学の基本的なことについて...
-
最小二乗法を反比例の式を元に...
-
心理学の統計について
-
ポアソン回帰でのカウントデー...
-
[Excel] リストからの無作為抽出
-
対数グラフの対数とは・・・?
-
極値をもつ時と持たない時、単...
-
対数目盛の読み方を教えてください
-
溶解度の問題 理科
-
正規分布について
おすすめ情報