プロが教える店舗&オフィスのセキュリティ対策術

同様の質問がネット上にありましたが、それでもよく分からないので質問させていただきます。
標準偏差は「平均値に対するブレ」の平均値であると聞きました。
計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージで覚えています。このとき何故、分母であるサンプル数にもルートがかかっているのでしょうか?
例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。これが所謂「平均値からのブレの平均値=標準偏差」かと思っていたのですが、標準偏差の公式に当てはめると答えは√2であるかと思います。
そもそも標準偏差とは「平均値からのブレの平均値」という認識が間違えているのでしょうか?
もしそうであれば所謂基準値を求めるために、分母に標準偏差を置くことが不適切であるようにも思います。

宜しくお願いします。

A 回答 (4件)

>計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージ



はい、合っています。その「二乗偏差の合計」を、データ1個当たりの「平均」にするために、データの個数で割ります。

要するに
 分散 = (偏差の二乗) / (データの個数)
つまり、「分散」とは
 (偏差の二乗) の平均値
です。

これを「ルートをかけて戻す」ときに、分母の「データの個数」は、「 (データの個数)のルート」になります。
「標準偏差」が「分散の平方根」なので、機械的にそうなるだけの話です。
「 (データの個数)のルートで割る」という発想ではありません。

>例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。

「差分」で勝手にプラスマイナスを除いてはいけません。差分は
 -2, -1, 0, 1, 2
です。この平均は、当然ながら「0」です。
「プラスマイナスを除いて、平均する」ことの意味は何ですか?

ただの「偏差」の平均をとったら必ず「0」になるので、わざわざそれを二乗して(正にして)平均をとるのです。そうすれば、一種の「ベクトル」としての「平均値からの距離」を平均したことになります。それが「分散」。
 分散 = (偏差の二乗) / (データの個数)
標準偏差は、それをデータの「次元」に合わせるために「平方根」にします。
    • good
    • 2
この回答へのお礼

ありがとうございます。
差分を言うのに勝手に±を排除してはいけませんね、絶対値という表現をすればよかったところを失礼しました。

単純に「分散の平方根が標準偏差だからそういうもの」として理解すべきなのは分かったのですが、ではなぜ「平均値からの距離」の平均を求めるのに"あえて"分母の平方根を用いるメリットがどこにあるのでしょうか?
そもそも 分散 = (偏差の二乗) / (データの個数) という定義がなぜ (偏差の二乗)/(データの個数の二乗)とはならなかったのでしょうか。

お礼日時:2017/06/12 13:51

No.3です。



>そもそも 分散 = (偏差の二乗) / (データの個数) という定義がなぜ (偏差の二乗)/(データの個数の二乗)とはならなかったのでしょうか。

数学の専門家ではないので明確な回答はできませんが、そもそもの「分布」を特徴づけるパラメータは「標準偏差」ではなく「分散」の方です。
正規分布の表わし方
 N(μ, σ²)
が表わすとおりです。

うまく説明はできませんが、正規分布の確率密度関数の形と関連しているのだと思います。(確率密度関数には、σ² の形で登場し、σ 単独では登場しない)
https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F …

つまり、正規分布の形(分布のしかた)が、「データの個数が変わると分布のしかたが変わる」ということです。もしデータの個数によっても「σ」が変わらないなら、「データの個数が変わっても分布のしかたは同じ」ということになってしまいます。
これは一般論として、「データの個数を N 倍にすると、そのバラツキぐあいは『N倍』にはならず、√N 倍になる」という経験則にも一致します。つまり「データの精度を高くするには、サンプルの数を増やす」ということです。「10人に聞いた内閣支持率」よりも、「1万人に聞いた内閣支持率」の方が精度が高い(バラツキが小さい)ということです。

その上で、「σ²」では「データの次元の2乗」の次元になってしまうため、データの次元(単位)と合わせるために「ルートをとって、データと同じ次元(単位)にする」という操作をしているのだと思います。
ただし、これは「はじめから σ ありき」で定義したものではなく、「はじめに σ² ありき」から「σ を求めて」使っているということなのです。

うまく説明できませんが。
    • good
    • 0
この回答へのお礼

分布の値としてσ^2という表現をすることが前提として在り、これを平方してみたものがσで、それを標準偏差と名付けた、ということでしょうか。他の方の回答も踏まえて、どうやら私は「平均偏差」と「標準偏差・標準誤差」の区別やその役割の違いをきちんと理解していなかったようです。ありがとうございました。

お礼日時:2017/06/12 15:47

> 標準偏差は「平均値に対するブレ」の平均値であると聞きました。


> 計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻す
そうではありません。
その考え方で計算すれば単に、「平均値との差分の絶対値、これの平均値」になります。
標準偏差は、平均値との差分のRMS、といえます。
これと似たものに、期待値のとの差分(誤差)の場合がRMSE、になります。
とりあえずは、理屈よりも公式(計算方法)を覚えておけばよいでしょう。
    • good
    • 0
この回答へのお礼

ありがとうございます。
RMSやRMSEという言葉すら聞いたことがないので正直よく分からないのですが、とりあえず公式として覚えて使うことには少し抵抗があります。

お礼日時:2017/06/12 13:53

「平均値からのブレの平均値」は標準偏差じゃなくて平均偏差. 標準偏差は分散の平方根.

    • good
    • 1
この回答へのお礼

ありがとうございます。
では標準偏差の存在意義とは何でしょうか?
素人的に考えると平均偏差のほうが分かり易い気がするのですが。。。

お礼日時:2017/06/12 13:54

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!