
同様の質問がネット上にありましたが、それでもよく分からないので質問させていただきます。
標準偏差は「平均値に対するブレ」の平均値であると聞きました。
計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージで覚えています。このとき何故、分母であるサンプル数にもルートがかかっているのでしょうか?
例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。これが所謂「平均値からのブレの平均値=標準偏差」かと思っていたのですが、標準偏差の公式に当てはめると答えは√2であるかと思います。
そもそも標準偏差とは「平均値からのブレの平均値」という認識が間違えているのでしょうか?
もしそうであれば所謂基準値を求めるために、分母に標準偏差を置くことが不適切であるようにも思います。
宜しくお願いします。
No.3ベストアンサー
- 回答日時:
>計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻すというイメージ
はい、合っています。その「二乗偏差の合計」を、データ1個当たりの「平均」にするために、データの個数で割ります。
要するに
分散 = (偏差の二乗) / (データの個数)
つまり、「分散」とは
(偏差の二乗) の平均値
です。
これを「ルートをかけて戻す」ときに、分母の「データの個数」は、「 (データの個数)のルート」になります。
「標準偏差」が「分散の平方根」なので、機械的にそうなるだけの話です。
「 (データの個数)のルートで割る」という発想ではありません。
>例えばポイントが2,3,4,5,6の母集団を考えるとき、その平均値は4で、各サンプルとのプラスマイナスを除いた差分はそれぞれ2,1,0,1,2であり、この差分の平均は1.2です。
「差分」で勝手にプラスマイナスを除いてはいけません。差分は
-2, -1, 0, 1, 2
です。この平均は、当然ながら「0」です。
「プラスマイナスを除いて、平均する」ことの意味は何ですか?
ただの「偏差」の平均をとったら必ず「0」になるので、わざわざそれを二乗して(正にして)平均をとるのです。そうすれば、一種の「ベクトル」としての「平均値からの距離」を平均したことになります。それが「分散」。
分散 = (偏差の二乗) / (データの個数)
標準偏差は、それをデータの「次元」に合わせるために「平方根」にします。
ありがとうございます。
差分を言うのに勝手に±を排除してはいけませんね、絶対値という表現をすればよかったところを失礼しました。
単純に「分散の平方根が標準偏差だからそういうもの」として理解すべきなのは分かったのですが、ではなぜ「平均値からの距離」の平均を求めるのに"あえて"分母の平方根を用いるメリットがどこにあるのでしょうか?
そもそも 分散 = (偏差の二乗) / (データの個数) という定義がなぜ (偏差の二乗)/(データの個数の二乗)とはならなかったのでしょうか。
No.4
- 回答日時:
No.3です。
>そもそも 分散 = (偏差の二乗) / (データの個数) という定義がなぜ (偏差の二乗)/(データの個数の二乗)とはならなかったのでしょうか。
数学の専門家ではないので明確な回答はできませんが、そもそもの「分布」を特徴づけるパラメータは「標準偏差」ではなく「分散」の方です。
正規分布の表わし方
N(μ, σ²)
が表わすとおりです。
うまく説明はできませんが、正規分布の確率密度関数の形と関連しているのだと思います。(確率密度関数には、σ² の形で登場し、σ 単独では登場しない)
https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F …
つまり、正規分布の形(分布のしかた)が、「データの個数が変わると分布のしかたが変わる」ということです。もしデータの個数によっても「σ」が変わらないなら、「データの個数が変わっても分布のしかたは同じ」ということになってしまいます。
これは一般論として、「データの個数を N 倍にすると、そのバラツキぐあいは『N倍』にはならず、√N 倍になる」という経験則にも一致します。つまり「データの精度を高くするには、サンプルの数を増やす」ということです。「10人に聞いた内閣支持率」よりも、「1万人に聞いた内閣支持率」の方が精度が高い(バラツキが小さい)ということです。
その上で、「σ²」では「データの次元の2乗」の次元になってしまうため、データの次元(単位)と合わせるために「ルートをとって、データと同じ次元(単位)にする」という操作をしているのだと思います。
ただし、これは「はじめから σ ありき」で定義したものではなく、「はじめに σ² ありき」から「σ を求めて」使っているということなのです。
うまく説明できませんが。
分布の値としてσ^2という表現をすることが前提として在り、これを平方してみたものがσで、それを標準偏差と名付けた、ということでしょうか。他の方の回答も踏まえて、どうやら私は「平均偏差」と「標準偏差・標準誤差」の区別やその役割の違いをきちんと理解していなかったようです。ありがとうございました。
No.2
- 回答日時:
> 標準偏差は「平均値に対するブレ」の平均値であると聞きました。
> 計算ではプラスマイナスを無効化するために一度2乗したのち、ルートをかけて戻す
そうではありません。
その考え方で計算すれば単に、「平均値との差分の絶対値、これの平均値」になります。
標準偏差は、平均値との差分のRMS、といえます。
これと似たものに、期待値のとの差分(誤差)の場合がRMSE、になります。
とりあえずは、理屈よりも公式(計算方法)を覚えておけばよいでしょう。
ありがとうございます。
RMSやRMSEという言葉すら聞いたことがないので正直よく分からないのですが、とりあえず公式として覚えて使うことには少し抵抗があります。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 Excelによるサンプルの拡大について 6 2023/08/22 16:03
- 統計学 生物統計学の質問 7 2022/05/17 13:59
- 統計学 以下の問題が分からないので計算式を教えてください ある企業が製造している電球の寿命の母平均と,母標準 3 2023/01/14 00:43
- 統計学 信頼区間についての質問です。 6 2023/06/25 17:34
- 統計学 統計学についての質問です。 2標本問題で A: サイズ32 平均62.2 標準偏差11.0 B: サ 2 2023/02/08 14:15
- 統計学 t値の計算方法 1 2022/11/29 18:37
- 統計学 標準偏差は平均値との差分ですか?中央値との差分ですか?どちらでもないですか? 7 2023/03/11 13:09
- 統計学 確率統計です。 1 2022/07/27 23:14
- 数学 この問題の右ページの分散を求めるときなんですけど、平均点の方は前の平均が71なので(新)=71✖️0 3 2022/06/10 23:02
- 統計学 化学 物理 電気 とある実験で求めた抵抗値の測定から求めた標準偏差(124)を利用して計算された平均 3 2023/06/25 20:34
このQ&Aを見た人はこんなQ&Aも見ています
おすすめ情報
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
決定木分析のサンプル数につい...
-
二項分布B(n,p)の中央値(メデ...
-
エクセルのグラフから半値幅を...
-
標準偏差・標準誤差・有意差に...
-
パイロットサンプルって何ですか?
-
標本分散の求め方
-
アンケートの集計分析の基礎(...
-
検量線の決定係数について
-
決定変数とはなんですか?どう...
-
【統計】効果検証としてのT検定...
-
大数の法則と中心極限定理の関...
-
Pythonのspicy.stats.norm.inte...
-
フーリエ変換と離散フーリエ変...
-
統計で、信頼区間のマイナス値...
-
t検定の結果の書き方
-
グラフの"eye guide"について
-
騒音値の「90%レンジの上端」...
-
【デジタル信号処理】窓関数の...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
サンプル数の異なる2群間にお...
-
EXCELにてローパスフィルタを作...
-
エクセルのグラフから半値幅を...
-
検量線の決定係数について
-
最小二乗法を反比例の式を元に...
-
パイロットサンプルって何ですか?
-
統計について
-
極値をもつ時と持たない時、単...
-
統計学のサンプル数2000の根拠は?
-
心理機能診断をしたのですが、...
-
変化率のみで、有意差の検定は...
-
【統計】有意に「高い」?「低...
-
線形なグラフとはひとくちに言...
-
グラフの"eye guide"について
-
下の対数表示のグラフから低域...
-
アンケートの集計分析の基礎(...
-
投稿論文を作成にあたり数年前...
-
死傷者数と死者数の違いって何...
-
エクセルの統計でχ二乗検定の結...
-
一元配置分散分析のp値が0になる
おすすめ情報