アプリ版:「スタンプのみでお礼する」機能のリリースについて

確率・統計の”標本分散”は不偏統計量でしょうか。すなわち標本数をnとした場合、(n-1)で割るかどうかです。テキストなどによると(n-1)で割るようなのです。とすると、nで割る場合それは何でしょうか。標本分散に母数(母分散)を推定するためのもの、という目的が明確に示されているなら、不偏統計量にするということもわかる気がします。一方、ただn個の数値があって、その分散は何かと言われたらnで割るのではないかと思うのですが。
言葉の定義の問題なのでどちらでもありうるのかもしれませんが、明確性はあった方がいいと思いますのでお尋ねしてみました。

A 回答 (3件)

企業で統計を推進する者です。



企業人なので、このような議論は、国内ルール、国際ルールに従うという立場です。ですからアカデミアと少し違うかもしれません。ご参考として読んで下さい。

n個の数値があって、その標本(その集団)の分散を求めよ。と言うときはnで割ります。それをかつては「標本分散」と呼んで不偏分散と区別していました。現在は呼び名がありません。
さらに、現在は不偏分散のことを標本分散と呼ぶようになりました。
なお、Excelの関数では、nで割るときのものには、pが付きます。ポピュレーション(全数の)という意味です。
つまり、全数データを対象とするときはnで割るということで、ご質問者のお考えは正しいです。

以下は、ご質問の趣旨から外れますが用語に関する混乱をまとめたものです。

かつてのJISによると、
・不偏分散は、偏差平方和 S を自由度 (φ=n-1) で割ったものです。
・それに対してS を n で割ったものが標本分散です。標本分散は「この標本についての分散」という意味で、全数データに対して用いられます。全数データは平均値の「推定」が必要ないため自由度が減りませんからnで割ります。

ところが、
・2006年のJISの改訂で、(n-1) で割ったものを、ISOに準拠する形で標本分散と呼ぶことになりました。注意が必要です。
・しかも、不偏分散 V の平方根 s は厳密には標準偏差 σ の不偏推定量ではない(1999年のJISでは明記されていた)にもかかわらず、2015年のJISでは、「標本標準偏差はばらつきの指標である」という曖昧な表現になりました。

このような背景から、
・テキスト、ネット、以下の両方が混在しています。我々は文脈からどちらのことか想像しながら読まなければいけません。
①古い記述:n-1で割ったものが不偏分散、nで割ったものが標本分散
②新しい記述:n-1で割ったものを不偏分散とも標本分散とも言う。nで割ったものに対する呼称は無い
    • good
    • 0
この回答へのお礼

回答ありがとうございます。
実際に勉強している立場で何冊かの本を並行して読んでいてこのような疑問が出てきました。1冊の本の中で定義が混在するということはないと思います。つまり通読中にはこのような疑問は生じないようです。しかし、複数の本あるいは複数の人間の間で定義の差異が起こる可能性があるということになるわけですね(ある本には定義が2つあるので注意と記載されているものもありました)。学科試験としてどうなるんだろうという疑問もあります。標本分散というのはかなり初等的な概念だと思うので。
 確率統計、あるいはデータサイエンスの分野とはそのようなものと理解しておくべきなのでしょうか。他にもあるかもしれないと警戒したくなります。この学問は成立過程で論争が続いたということもよく聞くのですが、その辺の事情もあるのかなと思いますが。

お礼日時:2020/08/31 09:21

「標本分散」という言葉は、使わないほうが無難だと思います。


数学上は、n で割るものが「分散」、(n-1) で割るものが「不偏分散」です。
「標本分散」では、標本の分散なのか、標本の不偏分散なのかが判りません。
それに関する規約は No.1 さんが書いておられますが、学術用語ではなく
所詮 JIS の規約なので、いつまた変わるとも知れません。

統計学の知識としては、標本の不偏分散が母集団の分散の不偏推定量なのだ
ということを理解しておくことが大切なのだと思います。 参考↓
https://ai-trend.jp/basic-study/estimator/unbias …
    • good
    • 0
この回答へのお礼

回答ありがとうございます。分散は割と初等的なものだと思いますが、そこでさえ用語がゆるぎなく定まっていないというのは珍しいのかなと思いました。一応、確率・統計って数学の中に含まれると思いますが、その中でも特別な位置づけになっているように思います。第一種過誤とか人間くさい感じもしますし。

お礼日時:2020/09/01 08:41

#1です。



ご質問者のように、複数の書籍を並行して調べるようなケースでは、分散に限らず、用語の定義が異なることがあります。非常に困ります。
これは、統計の世界に限らないと思います。

ご質問者がご指摘されておられるとおり、明確性があった方が良いのは当然です。
学校では、試験がどう採点されるのかという心配がありますが、商取引では、もっと深刻な問題になります。

そのために国際規格があると思います。
そして、それが間違いであっても、それに従うことが必要だと思っています。

6÷2(1+2)

が1か9か、このサイトで時々話題になりますが、これも、計算ルールを誰かが決めて、そのコミュニティーではそれに従うことが必要だと思います。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。6÷2(1+2)の問題は、和差・積商・かっこの3者の順番が明記されるか、掛け算のXは省略可能か、というルールが明確でないかもしれないということですね。悪法も法というか、使いづらさはさておき、ルールが明確かどうか、ゆるぎなく皆が使っているかどうかということですね。
それがそうじゃない場合があるっていうのが不思議です。赤信号・青信号の取り決めについて(それが真逆であってもいい)ですが、まだらになっている、すなわち場合によって赤で止まったり・進んだりするという感じがしてしまいました。内容はともあれ、皆が一斉に従うからこそ皆にメリットがあるのにです。
今回の標本分散の件では時間的に実被害があり、一旦停止して自分がどこで間違ったのか再度あれこれチェックするという事態になりました。懇篤な説明をいただきありがとうございます。

お礼日時:2020/09/01 08:33

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!