標準偏差について疑問が！

Question

データの評価に標準偏差というものを使おうと思うのですが、疑問があります。

88
40
41
74
47
3
90
94
42
57
88
95
60
91
83
97
65
95
79
36
25
27
63
83
2
15
27
32

っというデータ群があります。

平均が59で、標準偏差が30です。

で、ばらつきの範囲というので

μ+3σ(99%含まれる)
μ+2σ(95%含まれる)
μ+1σ(64%含まれる)
標準偏差(σ)
μ-1σ(64%含まれる)
μ-2σ(95%含まれる)
μ-3σ(99%含まれる)

μは平均値

という式があるので、これに上記結果を当てはめると

μ+3σ149
μ+2σ119
μ+1σ89
標準偏差30
μ-1σ29
μ-2σ-1
μ-3σ-31

っとなります。

ここで不思議なのですが、今回のサンプルデータは国語のテストの点数という事で、最低を0点、最高を100点としています。

平均に対するバラツキという意味で考えると、サンプルデータの最高点と最低点よりも上下のあるのがおかしく思えます。

っというか100点以上と、0点いかが存在するのは本当に不思議です。

私の計算が間違っているだけだと思うのですが、
どなたかこの間違いを指摘していただけないでしょうか？

AsanoNagi · Accepted Answer

平均値と標準偏差の組み合わせで、間に含まれる割合が推定できるのは、分布の形がわかっている必要があります。
この場合は、正規分布をなしているというのが前提となります。
これは、既に回答にあるとおりです。

そして、それとは別に、100点を超えたり、0点を下回るところが出てくることはあります。
そもそも、この 80, 40, ... という数字が、「テストの点数」であることは、問題を準備した側の都合です。
統計計算の上では、あくまでも、「どこかのデータの集団から、任意に取り出したデータの例」でしかありません。
「上限は 100」という制約は、計算の中には出てこないわけです。

たとえば、-10 から 110 までのカードがあったとします。
その中から、50回取り出したとして、上記のようなデータになるかもしれません。
０以下や100以上のカードが１回も出ないこともあるでしょう。このとき、元のカードの中には、100以上のデータはなかったと断言はできません。
（でも、50回取り出して、0～100に全部収まっていたら、それ以外の範囲のカードがある可能性は少ないだろうとは言えます）

そういうわけで、計算上は、「あり得ない数」が、範囲に含まれることもよくあることです。
それを、問題の意味から、「あり得ない」とするのは、問題を準備した、人間の責任になります。

hitokotonusi · Answer

μ+3σ(99%含まれる)
μ+2σ(95%含まれる)
μ+1σ(64%含まれる)

は正確には、

μ±3σ(99%含まれる)
μ±2σ(95%含まれる)
μ±1σ(64%含まれる)

ですが、こうなるのはものとデータが正規分布をしている場合のみです。

この成績の分布はちょっと見たところ正規分布とは似ても似つかないようですね。

標準偏差について疑問が！

平均値と標準偏差の組み合わせで、間に含まれる割合が推定できるのは、分布の形がわかっている必要があります。

μ+3σ(99%含まれる)

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング