分散の計算では、nで割る母分散と、(n-1)で割る不偏分散がありますが
なぜ(n-1)で割るのか、いまいち直感に訴える説明に出会っていません。
たいていの本では、天下り式に「(n-1)で割る」とだけしか書いて
いません。たまに親切な本では計算式に平均値が入っているので自由度は
nから1だけ少なくなる云々とありますが、自由度が何故1減らなければ
ならないのか、いまいち理解出来ません。
もう少し高度な本になると、期待値Eやら分散Vやらが出て来て、
不偏統計量云々の「ややこしい」説明が出て来ますが、これも直感に
訴えかける説明ではありません。
数物系出身ながらお恥ずかしい質問ですが、いざ自分に問いかけてみると
納得できる説明が出来ません。「なるほど!」というご説明をいただけると
幸いです。よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

>自由度とは何を意味するのでしょうか?


数学的正確さがない表現です。

測定点がn個あったとします。これをベクトルで考えると.これから求めようとする値である1点の点はn個の方向へ引っ張られているのです。この数が自由度です。
もし.このn個の中の数の1つを使ってしまったらばどうなるのでしょうか。一つ引っ張る方向が減ります。
世の中にnこしか測定点が存在しない場合には.全体が決まっていますから平均値を求めても自由度は変化しません。しかし.無数の測定が出来る時に平均を求めたらばどうなるのでしょうか。本来無数の点すべてを測定した時に求められる1点の値が分からないから.n個の測定値の算術平均を取って多分全体の点の1点になるであろうと推定して平均としました。つまり.絶対的な値ではなくて想像上の点です。今まであった点に変えてこの点を使いますから.引っ張る方向が一つ減ります。
自由度で割るというのは.このように引っ張る点1点あたりの割合を示しています。

このように.一つの値を求めようとした時に.自由度は測定点の数から推定点の数を引いた残りを示しています。
    • good
    • 1
この回答へのお礼

平均値は観測値から計算される物との固定観念を取り去って
ほかの観測値と同じデータの一つと考えると、edogawaranpoさんの説明も
なんとなくイメージがつかめてきました。ありがとうございます。

お礼日時:2002/04/25 12:25

私も統計的自由度というのがいまいちわかりませんが計算だけなら



確率変数Xの確率分布P(X)があるとします。
このとき標本 Xi (i=1~n) で平均m= ΣXi/n として
<Σ(Xi-m)^2>を計算します。
P(X1)P(X2)・・・P(Xn)
が{Xi (i=1~n)}の確率で
∫dX1 P(X1) ∫dX2 P(X2)・・・∫dXn P(Xn) Σ(Xi-m)^2 ...(※)
を展開して母集団の分散
∫dX P(X)(X-<X>)^2
との関係を導くと(※)をn-1で割ればいいことがわかります。

この計算においては、∫dX P(X)(X-<X>)^2という1体問題と
(※)というn体問題の関係を求めているわけですが
このときn-1は結局、n体問題の関係を1体問題にするときに
XiXj(i,j=1~n) のなかから
相関のない2つのパラメータの関係(XiXj) (i=jでない)
(すなわち本質的な1体問題と)
相関のある自分自身(Xi^2)との関係を
分離することによって出てくるものです。
すなわち、サンプル平均とサンプルの値 Xi (i=1~n) を通して相関がある値が
発生するために自由度が減少しているという計算になっているように見えます。
(力学でいえば、統計的に等質量の質点のサンプルから
 重心と慣性モーメントを求めたときに、
 本当の重心の位置とサンプルの重心の違いがあるために、
 サンプルの慣性モーメントが小さく見えてしまう
 (ので、1個あたり揺らぎの大きさn^(-1/2)ずつ加算して
 n個で丁度和の自乗が1になる揺らぎを含んでいるので
 その分1だけ小さい値で割る)
 ということに対応しているのでしょうか?)
    • good
    • 0

正確さが欠けるのですが.以下の説明ではどうでしょうか。



分散の計算では.自由度で割るということが原則です。
ですから.
全数サンプリングの場合には.nで割る。平均値は推定値ではありませんから。
部分サンプリングでは.推定値として1つ「平均値」を使ってしまいましたから.n-1で割る。
重み補正をした場合には.重みに使用した自由度(普通1個)と推定値の「平均値」の合計2個の値を使ってしまいましたから.n-2で割る。
欠点補正をした場合には.1点の補正につき1点の自由度が減少します。2点の欠点がある場合に.2点の補正値を推定して.推定値の平均を1つ.合計3つの値を使ってしまいましたから.n-3で割る。
と考えて行きます。その分散を求めるためにいくつの推定値を使ったか.使った分を除くという考え方に立ちます。

この回答への補足

早速のご回答ありがとうございます。

edogawaranpoさんの書かれた解答は、一般的な教科書の正統な解答だと
理解しています。ここで、私が理解できないのは
1、「分散の計算では自由度で割るということが原則」とありますが
分散の定義を数学辞典で調べると、平均と標本値の差の自乗の平均が
分散だとしてnで割る場合が書かれています。ところが「(n-1)で割る
場合もある」などと曖昧な表現も追記されています。
自由度で割るというのは定義ですか?
2、そもそも、自由度とは何を意味するのでしょうか?

分散とは、平均と標本値の差の自乗の平均という「高校生向け」定義は
数直線上に標本値と平均値をプロットしながら、「分散とはこういうも
のだ」と図示しながら説明がしやすいものです。
しかしながら自由度なるパラメータが出て来て、nで割るはずの平均が
(n-1)で割るというのは、視覚に訴えるものが無くて困っています。

なぜ?という疑問を持ち出すと、いままでの自分の理解が浅い事が
痛感されます。

補足日時:2002/04/10 06:54
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q平方和、平方差とは?

こんな簡単な質問ですが、
よく、「平方和、平方差」と聞きますが、どういう計算式なんでしょうか?
数学が全くだめなのでわかりやすく教えていただけないでしょうか?

Aベストアンサー

> 平方差についてですが、出てくる数値の順番によって答が違ってきますね。そのあたりは何か決め事があるのでしょうか?

「aとbの差」を a-b の意味で使う場合と |a-b| の意味で使う場合とあり,きちんと断ってないときは文脈で判断するしかないと思います。

「三角形が鋭角三角形になる条件は,1辺の平方が他の2辺の平方和より小さく平方差より大きい」という記述では
|a^2-b^2|<c^2<a^2+b^2
を意味しています。

Q標本分散が母分散より少し小さくなる理由、不偏分散をn-1でわる理由

お世話になっております。
統計学初心者で、母平均の信頼区間の推定について勉強しています。

勉強している中で、標本分散が母分散より少し小さくなるということ、
そのため標本分散ではなく不偏分散を利用し、不偏分散の算出は偏差平方和、サンプルサイズから1引いたもので割ることを勉強しました。

しかし標本分散が母分散より少し小さくなる理由、そして、そのために不偏分散の算出においてn-1でわる理由が分かりませんでした。

わかりやすい形で教えて頂けないでしょうか?
どうぞよろしくお願い申し上げます。

Aベストアンサー

こんばんは。

数式ではなく、言葉で説明したいと思います。

母分散というのは、たとえば、学校で試験を受けた生徒全員の点数の分散に適用されます。(生徒の数=n)
この場合は、母平均がわかります。

ところが、一部の生徒だけの点数だけを取り出して、その分散を求める場合は、
それらの生徒の平均値(標本平均)はわかりますが、母平均は、わかりません。

つまり、前者に比べて、後者のほうが、真の平均値(母平均)がわからない分だけ、
情報量がn個より1個少ないことになります。
これを「自由度」が1個少ない、と言います。

後者の場合で、分母をn-1にすることにより、(分母をnにしたときよりも)分散を多く見積もらなければいけないのは、そういう理由によるのです。

別の言い方をすれば、
真の平均値(母平均)がわからない標本抽出の統計では、
1/nをかける計算方法で分散を求めてしまうと、ずるく小さい分散になってしまうので、
分母をn-1にすることによって分散値を大きい方に補正して、そのハンデが解消されてフェアな状況になるのです。


標本分散が母分散より少し小さくなる理由について
もう少し細かい話もしますね。


分散を計算するときには、1/nをかけるか1/(n-1)をかけるかはさておき、
Σ の部分は、
Σ(各データ値 - 平均値)^2
という計算をしますよね。


標本分散のΣの計算の仕方は、 Σ(標本の各データ値 - 標本の平均値)^2


母分散のΣの計算の仕方は、 Σ(母集団の各データ値 - 母集団の平均値)^2
です。

実は、Σの値は、計算対象のデータ自身の平均値を用いて計算された場合に最小(極小)になります。
(説明を省きますが、最小二乗法と同様の考え方です。)
極端な例を挙げれば、0.1、0.2、0.3、0.4、0.5 という5個のデータがあるとき、
「平均値」を1万としてΣを計算したことをイメージすれば、直感的に理解できるかと思います。
ですから、上記のAの計算で、もしも平均値として標本平均の代わりに母平均を採用したとすれば、
Σの計算結果は少し大きくなります。
逆に言えば、抽出した標本データだけから求まる標本平均を使うと、
Σが最も小さく抑えられる(=ずるい)ということです。


以上、ご参考になりましたら。

こんばんは。

数式ではなく、言葉で説明したいと思います。

母分散というのは、たとえば、学校で試験を受けた生徒全員の点数の分散に適用されます。(生徒の数=n)
この場合は、母平均がわかります。

ところが、一部の生徒だけの点数だけを取り出して、その分散を求める場合は、
それらの生徒の平均値(標本平均)はわかりますが、母平均は、わかりません。

つまり、前者に比べて、後者のほうが、真の平均値(母平均)がわからない分だけ、
情報量がn個より1個少ないことになります。
これを...続きを読む

Q数の各桁の平方和をとり続けると1か37が出てくることの証明

百科事典を読んでいたら次のような記事が載っていました(要約)。

自然数(10進数)の各桁の数字の2乗の和を作る。
この結果についてまた同様に各桁の2乗の和を作る。
この操作を繰り返すと
(1) 37→58→89→145→42→20→4→16→37→… で循環
(2) 1→1→… で循環
のどちらかになる。

自然数の各桁の平方和をとり続けると必ず1か37が出てくるというわけですが、この証明を知りたいです。
証明の載っているHP・書籍等ご存知でしたら教えてください。

Aベストアンサー

エレファントな探索を続けてみます。

(a^2 + b^2 + c^2) - (100 a + 10 b + c)
= (a - 50)^2 + (b - 5)^2 + (c - 1/2)^2 - (2500 + 25 + 1/4)

100 a + 10 b + c が3桁の数であれば
 -49 ≦ a - 50 ≦ -41,
 -5 ≦ b - 5 ≦ 4,
 -1/2 ≦ c - 1/2 ≦ 17/2
だから、

(a^2 + b^2 + c^2) - (100 a + 10 b + c)
≦ 49^2 + 5^2 + (17/2)^2 - (2500 + 25 + 1/4) = -27 < 0

3桁でも、操作の結果は値が減少する。

99まで位なら、手計算でも…

Q統計学の不偏分散のN-1について

統計学の授業で、

(不偏)分散=(Σ(中央値との差)^2)/N-1

と習いました。そして、教授が、なぜ、N-1で割るかについて、
「たとえば1と-1が半々の確率で出る時を考えると、
A 1→1 25%
B 1→-1 25%
C -1→1 25%
D -1→-1 25%
の場合があり、それぞれの分散が(Nで割る分散で計算すると)
A:0 B:1 C:1 D:0 となるから、平均の分散は0.5になる。しかし、真の値(中央値からの平均距離の二乗)は1のはずだから、分母のNを小さくせねばならない。」
という説明をされました。

しかし、この説明では、たまたま、この一つの具体的な現象において、N-1で割るほうがよりよいと言っているだけであって、他の場合すべてにおいてもより良いことの証明になっていないと思いました。

分散の計算のときにN-1で割ったほうがよいというのは経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか?

もし"証明"されているならその証明を教えてください。

Aベストアンサー

> 経験則なのでしょうか?それともちゃんと"証明"されていることなのでしょうか?
【答】証明されていることです。
教科書・参考書に載っていることなので、ここで述べるのは勘弁してください。

仮に「母平均が既知で、母分散が未知」で、サンプルから母分散を推定しようとすれば、各データから母平均を引いて、計算をします。この場合はNを使い、Nー1を使う必要はありません。

しかし「母平均」が未知だと、各データから「母平均」を引くわけにはいかないので「標本平均」を引くことになります。コマを回すと、自分の重心のまわりを回るように、「標本平均」の周りの2次モーメント(分散)が必ず最小になるので、このまま母分散を推定すると「過小評価」となります。その過小評価を補正するために、N/(Nー1)を掛けます。

この式から、N=1では不偏分散が計算できないことや、N=2では、標本分散が不偏分散の半分になることなどが読み取れます。抽象的ですみませんが、このような捉えかたも、どこかできっと役に立ちます。

Q偏差平方和の計算方法

QC検定に向けて勉強しているところです。

偏差平方和の計算は、
Sx=Σ(xi-xbar)^2=Σxi^2-(Σxi)^2/n
とあります。

Σ(xi-xbar)^2を展開していくときに、最終的に
式が、Σxi^2-n(xbar)^2で終わっていない理由、
つまり、xbarを消している理由って何かあるのですか?

Aベストアンサー

>Sx=Σ(xi-xbar)^2=Σxi^2-(Σxi)^2/n

定義からいうと

Sx=Σ(xi-xbar)^2     (1)

で完ということです。しかし計算手順を考えてみると

xbar=Σxi/n         (2)

ですからxbarはこのデータを足してnで割って得られるわけであって、これを(1)に用いてもう一度n個のデータを計算し直さなければならないという2度手間になっています。

Sx=Σxi^2-(Σxi)^2/n

はxiの和、およびΣxi^2の和を同時に求めつつ進めて、最後にこの式で処理すればよいので一度で済むということです。

表計算をする場合はA欄にxi、B欄にxi^2を入れておいて両者のn個の合計を取ってやればよいことになります。

いずれにしろPCを使う場合大した問題ではありません。

Q不偏分散の分母の n-1

標本平均 Xav を求める式、

 Xav = 1/nΣxi

を不偏分散で用いるため自由度が1減り、不偏分散の分母が n-1 になると思います。

母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、
標本分散では自由度が減らず分母が n-1 ではなく n になる。

この考えは間違っていないでしょうか?

もし間違っていないとすると、母平均は事前にわかっているものなのでしょうか?
例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、上式より母平均(?)を求めることができます。
母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。
これは結局不偏分散を求めているのでしょうか?

Aベストアンサー

こんばんは。

>>>母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、
>>>標本分散では自由度が減らず分母が n-1 ではなく n になる。
>>>この考えは間違っていないでしょうか?

間違っていません。
正しいです。
ただし、「標本分散」は標本の平均を用いて計算しますので、
母集団の平均を用いて計算した分散より小さくなることに注意してください。
(だから、「標本分散」は、あまり有用でなく、分母を n-1 とした不偏分散が使われるのです。)


>>>
例えば、母集団をクラス40人のテストの点数とすると(これは母集団と言わない?)、

40人がクラス全員なのであれば、それは母集団と言います。


>>>上式より母平均(?)を求めることができます。

そうです。


>>>母平均が40個のデータに独立でないため、分散の自由度は1減らす必要がある気がします。
>>>これは結局不偏分散を求めているのでしょうか?

いえ。

不偏分散は母分散の推定値ですから、分母を n-1 にする必要があります。
しかし、40個すべてのデータから得られた母平均や母分散は40個のデータと独立ではありませんが、
情報が40個あります。
ですから、分母を n-1 (=39) にする必要がありません。


以上、ご参考になりましたら。

こんばんは。

>>>母平均は標本から求めるものではなく(それは標本平均になる)、既知であることが前提であるため上式は不要であり、
>>>標本分散では自由度が減らず分母が n-1 ではなく n になる。
>>>この考えは間違っていないでしょうか?

間違っていません。
正しいです。
ただし、「標本分散」は標本の平均を用いて計算しますので、
母集団の平均を用いて計算した分散より小さくなることに注意してください。
(だから、「標本分散」は、あまり有用でなく、分母を n-1 とした不偏...続きを読む

Qエクセル関数で平方和を求める関数について教えてください.

列A,Bに割り付けられているデータが各20個あります.
(A1-B1)の二乗,(A2-B2)の二乗,・・・の総和を求める関数とその使い方について教えてください.

Aベストアンサー

=SUMPRODUCT((A1:A20-B1:B20)^2)

Q標本分散と不偏分散の使い分けについて。

標本分散と不偏分散の使い分けについて。

私はメーカーに勤めており、電子部品のばらつきなどでよく標準偏差σを目にします。
自分で少し調べてみると標準偏差にも標本分散を使うときと不偏分散を使うときがあることを知ったのですが、説明が難しくどのように使い分けていいのか分かりません。

標本分散と不偏分散はどのように使い分ければいいのでしょうか。
例えば電子部品の性能や実験データのばらつきにはどちらが使われているのでしょうか?

ご存知の方、教えてください。
よろしくお願いします。

Aベストアンサー

 母集団から全ての標本を抽出して得た、すなわち、全てのデータを使った分散を標本分散、というようです。しかし、標本分散の文字から、抽出した標本の分散という意味から、不偏分散の意味でも使う(私もそうでした)こともあり、標本分散がどちらなのか、混乱しています。質問者も標本分散をこの意味で使っていると想います。

 母集団のデータを知るのが統計学では目的ですが、それには全数(全サンプル)を利用する必要があります。しかし、製品検査などでは、全数検査だと商品が残らない、あるいは手間がかかり過ぎるので抜き取りを行い、全数検査の替わりにできます。この場合の分散は、不偏分散で代用ができます、というのが推測統計学です。

 すなわち、全数検査(文字通り全数、一つ欠けてもダメ)なら標本分散(この用語は混乱を招くので、私は使いませんが)、抜き取りなら不偏分散を利用しています。

Q偏差平方和の式

初歩的な質問で恐縮です。相関分析の参考書に
Sx=Σ(xi-xbar)^2=Σxi^2-(Σxi)^2/n
とあります。
この式の証明方法を教えていただけないでしょうか?
この分野はあまり得意でなく困っております。
言葉を添え丁寧に教えていただくと助かります。
勝手申しますが、よろしくお願いします。

Aベストアンサー

個人的な書きやすさのため
xbarをaverage(x)って書き

xiをx(i)と書くことにする。

なお
Σ(x(i))^2は (x(1) + x(2) + x(3))^2を
Σ(x(i)^2)は (x(1)^2 + x(2)^2 + x(3)^2)を
それぞれ意味するものとする。
 平均って,定義から明らかに
average(x) = Σ(x(i))/n ・・・A
だよな。

Σ(x(i) - average(x))^2
=(x(1) - average(x))^2
+(x(2) - average(x))^2
+(x(3) - average(x))^2
+…
+(x(n) - average(x))^2

=(x(1))^2 - 2 * x(1) * average(x) + (average(x))^2
+(x(2))^2 - 2 * x(2) * average(x) + (average(x))^2
+(x(3))^2 - 2 * x(3) * average(x) + (average(x))^2
+…
+(x(n))^2 - 2 * x(n) * average(x) + (average(x))^2

= Σ(x(i)^2) - 2 * average(x) * Σ(x(i)) + n * (average(x))^2

ここでAをaverage(x)に代入すると

Σ(x(i)^2) - 2 * average(x) * Σ(x(i)) + n * (average(x))^2
= Σ(x(i)^2) - 2 * Σ(x(i)) / n * Σ(x(i)) + n * (Σ(x(i)) /n )^2
= Σ(x(i)^2) - 2 * Σ(x(i)) ^ 2 /n + Σ(x(i))^2 / n
= Σ(x(i)^2) - Σ(x(i))^2 / n

個人的な書きやすさのため
xbarをaverage(x)って書き

xiをx(i)と書くことにする。

なお
Σ(x(i))^2は (x(1) + x(2) + x(3))^2を
Σ(x(i)^2)は (x(1)^2 + x(2)^2 + x(3)^2)を
それぞれ意味するものとする。
 平均って,定義から明らかに
average(x) = Σ(x(i))/n ・・・A
だよな。

Σ(x(i) - average(x))^2
=(x(1) - average(x))^2
+(x(2) - average(x))^2
+(x(3) - average(x))^2
+…
+(x(n) - average(x))^2

=(x(1))^2 - 2 * x(1) * average(x) + (average(x))^2
+(x(2))^2 - 2 * x(2) * ave...続きを読む

Q高校数学の問題です。 ●自然数nに対して、n^2+n^3が3で割り切れないとき、nを3で割った余りを

高校数学の問題です。
●自然数nに対して、n^2+n^3が3で割り切れないとき、nを3で割った余りを求めよ。
の解き方を教えてくださいm(_ _)m

Aベストアンサー

No.1です
テキストなので式が誤解されやすいので念のため。
(まあ,単純な変形なのでありますが)

n^2+n^3 = n^2 × (n+1)

ついでですので,少し表現を変えてみました。

nもn+1も3の倍数でない。

n+1=3,6,9・・・ではないはすなわち
n=2,5,8・・・であってはならない。

条件を満たすのは
n=1,4,7・・・

したがいnを3で割った余りは1となる。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング

おすすめ情報