標準偏差について

Question

エクセルで、標準偏差の式は４種類あり
（STDEV、STDEVA 、STDEVP、STDEVPA）
違いがよくわかりません。
はじめの２つは分母が（ｎ－１）、あとの２つは分母がｎ
となっています。

高校の数学で習ったときは、分母はｎだったと思います。
この違いはなんですか？

（２つずつ同じ数式ですが、Ａがあるのと無いのでは何が
　違うかわかりますか？）

エクセルのヘルプでは、下記のように書いてあります。

STDEV   引数を正規母集団の標本と見なし、標本に基づいて母集団の標準偏差の推定値を返します。

STDEVA   数値、文字列、および論理値を含む引数を正規母集団の標本と見なし、母集団の標準偏差の推定値を返します。

STDEVP   引数を母集団全体と見なし、母集団の標準偏差を返します。

STDEVPA   数値、文字列、および論理値を含む引数を母集団全体と見なし、母集団の標準偏差を返します。

kumipapa · Accepted Answer

標準偏差そのものを求める計算は、質問者さんが言われるとおり、分母をｎとするのが正しいです（実際は、分散を計算するときにｎで割るのであって、標準偏差は（√分散）ですね）。

ですから、例えば、

部品を１０万個作った。これら部品の寸法の平均および標準偏差を調べたい。

と言う場合は、暇な人がいれば、とにかく１０万個の部品の寸法を全部測定して、全部の測定値から平均と分散、標準偏差を計算する。このとき、平均も分散も１０万で割る。こうして求められた値は、とりもなおさず母集団の平均と分散であり、標準偏差はSTDEVPで計算するべき。

ところが、大抵の場合、１０万個の部品全部の寸法を調べようなんて暇な人はいないわけで、１０万個作ったうちの１００個を無作為に抜き出して測定して、その１００個の測定値の平均値や標準偏差を求めようとする。このように、母集団（１０万個）から１００個抜き出した標本の平均を計算するときには１００で割り、標本の分散そのものを計算するときも１００で割る。こうして求めた標本の平均や分散は、母集団のそれと区別して、標本平均とか標本分散と呼ばれるのですが、標本の標準偏差そのものを求めるときもSTDEVPを使って計算して良い（と思う）。
ところが、１００個抜き出して検査を行った元々の目的は、母集団の平均や標準偏差を「推定しましょう」ということであって、標本平均や標本分散を求めれば良いというほど実は単純ではない。抜き取り検査をして、標本平均と標本分散を求め、標本を母集団にもどしてまた抜き取り検査をする。これを何度も何度も繰り返す。このとき、繰り返し求められた標本平均の平均がどうなるか、標本分散の平均がどうなるかを調べてみると、標本平均の平均は、どうやら母集団の平均値（強いていうなら真値ですね）に近づくのだけど、ちょっと不思議なことに、標本分散の平均は母集団の分散に近づいてくれない。ということで、標本分散をもってして母集団の分散の推定量とするのはどうも怪しい。

推定量の平均が母集団の母数（平均とか分散）になるとき、その推定量を不偏推定量といいますが、上で述べたように標本平均は不偏推定量なんだけれど、標本分散は不偏推定量ではない。そこで編み出されたのが、標本から分散の推定量を計算するときにｎで割るのではなく(n-1)で割る方法で、こいつが分散の不偏推定量になっているため不偏分散と呼んばれたりする。で、（√不偏分散）を計算してくれるのがSTDEV。

ということで、
STDEVPは母集団または標本（を母集団と見なして）の標準偏差を計算してくれる。
一方、STDEVは標本の（√不偏分散）を計算してくれるが、これは「標本の標準偏差」ではなく、「母集団の標準偏差の推定値」である。

じゃあ、母集団の標準偏差の推定値はSTDEVで計算しないと誤りなのか、と言われると、それがまたややこしい。不偏推定量というのは、その期待値が母集団と一致するという点では一応確からしいわけなんだけど、そのほかにも推定量としての確からしさを見積もる方法はいろいろとあって、(n-1)で割る不偏分散が必ずしも一番確からしいとは言えないと思う。最尤推定量っていうのもあるのだけど、不偏分散は最尤推定量ではなく、標本分散の方が最尤推定量だったりもする。

まあ、現実問題としてはｎが適当に大きければ標本分散と不偏分散の違いは問題にならない場合が多いのであまり気にした事はありませんし、それが気になるような場合は、他に問題がある場合の方が多いので、どっちでもいーよなーと大雑把な私はいつも思ってる。

tai-mai · Answer

Aがつくものは、引数に論理値や文字列を含むことができます。
Trueの場合は1と数えて、Falseや文字列は0と数えるということです。
・・・・・何に使うのでしょうね。

高校でお習いになったというnで割って求める分散は、標本分散です。
例えば、クラス40人のテストの得点の散らばり具合をあらわします。

n-1は不偏分散といいます。1学年に何十人もいるとして、サンプルとして40人にテストを受けさせる。その得点のデータから、学年全体の散らばり具合を推定するときに用います。

平均と比べてみましょうか。
平均の場合、学年全体の平均得点は、サンプルの40人の平均得点と同じと推定してよいのです。
分散の場合は、その標本の分散をしりたいのか、その標本が含まれる母集団全体の分散を知りたいのか、によって式が違うというわけです。
詳しくは統計の教科書を読んでください。

ある工場で、ある担当者が、標本分散の方が数値が小さく出るので、わざと間違えて標本分散を計算して、あたかもより散らばりのすくない製品を生産しているかのよう上司に報告する、ということをしていたのを見たことがあります。。。。。。(^^;

Tacosan · Answer

A が付くやつと付かないやつとの違いはわかりませんが, 分母については
n: そのデータ全体の標準偏差を求める
n-1: そのデータを「もっと大きな母集団からもってきた n個のデータ」とみなして, 「もっと大きな母集団」の標準偏差を求める
ことになります.
一応, そんな風に書いてありますね.

標準偏差について

標準偏差そのものを求める計算は、質問者さんが言われるとおり、分母をｎとするのが正しいです（実際は、分散を計算するときにｎで割るのであって、標準偏差は（√分散）ですね）。

Aがつくものは、引数に論理値や文字列を含むことができます。

A が付くやつと付かないやつとの違いはわかりませんが, 分母については

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング