標準偏差の分母にルートをかける理由について

Question

同様の質問がネット上にありましたが、それでもよく分からないので質問させていただきます。
標準偏差は「平均値に対するブレ」の平均値であると聞きました。
計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージで覚えています。このとき何故、分母であるサンプル数にもルートがかかっているのでしょうか？
例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。これが所謂「平均値からのブレの平均値＝標準偏差」かと思っていたのですが、標準偏差の公式に当てはめると答えは√2であるかと思います。
そもそも標準偏差とは「平均値からのブレの平均値」という認識が間違えているのでしょうか？
もしそうであれば所謂基準値を求めるために、分母に標準偏差を置くことが不適切であるようにも思います。

宜しくお願いします。

yhr2 · Accepted Answer

＞計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージ

はい、合っています。その「二乗偏差の合計」を、データ1個当たりの「平均」にするために、データの個数で割ります。

要するに
　分散 = (偏差の二乗) / (データの個数)
つまり、「分散」とは
　(偏差の二乗) の平均値
です。

これを「ルートをかけて戻す」ときに、分母の「データの個数」は、「 (データの個数)のルート」になります。
「標準偏差」が「分散の平方根」なので、機械的にそうなるだけの話です。
「 (データの個数)のルートで割る」という発想ではありません。

＞例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。

「差分」で勝手にプラスマイナスを除いてはいけません。差分は
　-2, -1, 0, 1, 2
です。この平均は、当然ながら「0」です。
「プラスマイナスを除いて、平均する」ことの意味は何ですか？

ただの「偏差」の平均をとったら必ず「0」になるので、わざわざそれを二乗して（正にして）平均をとるのです。そうすれば、一種の「ベクトル」としての「平均値からの距離」を平均したことになります。それが「分散」。
　分散 = (偏差の二乗) / (データの個数)
標準偏差は、それをデータの「次元」に合わせるために「平方根」にします。

yhr2 · Answer

No.3です。

＞そもそも　分散 = (偏差の二乗) / (データの個数)　という定義がなぜ　（偏差の二乗）／（データの個数の二乗）とはならなかったのでしょうか。

数学の専門家ではないので明確な回答はできませんが、そもそもの「分布」を特徴づけるパラメータは「標準偏差」ではなく「分散」の方です。
正規分布の表わし方
　N(μ, σ²)
が表わすとおりです。

うまく説明はできませんが、正規分布の確率密度関数の形と関連しているのだと思います。（確率密度関数には、σ² の形で登場し、σ 単独では登場しない）
https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83

つまり、正規分布の形（分布のしかた）が、「データの個数が変わると分布のしかたが変わる」ということです。もしデータの個数によっても「σ」が変わらないなら、「データの個数が変わっても分布のしかたは同じ」ということになってしまいます。
これは一般論として、「データの個数を N 倍にすると、そのバラツキぐあいは『N倍』にはならず、√N 倍になる」という経験則にも一致します。つまり「データの精度を高くするには、サンプルの数を増やす」ということです。「10人に聞いた内閣支持率」よりも、「１万人に聞いた内閣支持率」の方が精度が高い（バラツキが小さい）ということです。

その上で、「σ²」では「データの次元の２乗」の次元になってしまうため、データの次元（単位）と合わせるために「ルートをとって、データと同じ次元（単位）にする」という操作をしているのだと思います。
ただし、これは「はじめから σ ありき」で定義したものではなく、「はじめに σ² ありき」から「σ を求めて」使っているということなのです。

うまく説明できませんが。

angkor_h · Answer

> 標準偏差は「平均値に対するブレ」の平均値であると聞きました。
> 計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻す
そうではありません。
その考え方で計算すれば単に、「平均値との差分の絶対値、これの平均値」になります。
標準偏差は、平均値との差分のRMS、といえます。
これと似たものに、期待値のとの差分(誤差)の場合がRMSE、になります。
とりあえずは、理屈よりも公式(計算方法)を覚えておけばよいでしょう。

Tacosan · Answer

「平均値からのブレの平均値」は標準偏差じゃなくて平均偏差. 標準偏差は分散の平方根.

標準偏差の分母にルートをかける理由について

＞計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージ

No.3です。

> 標準偏差は「平均値に対するブレ」の平均値であると聞きました。

「平均値からのブレの平均値」は標準偏差じゃなくて平均偏差. 標準偏差は分散の平方根.

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング