【数学・標準偏差σ】標準偏差のσ（シグマ）は全部のデータの標準偏差とサンプル抽出データの

Question

【数学・標準偏差σ】標準偏差のσ（シグマ）は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、全部のデータから平均を出すのが難しい膨大な数のデータだから標準偏差を用いると書かれていたのに、標準偏差を導き出すのに全部のデータから標準偏差を出して、さらにサンプルから標準偏差を２度出しした方が計算処理は負荷が大きいのでは？

全てのデータから標準偏差を出すなら最初から全部のデータから平均を出したらよいのでは？

kamiyasiro · Accepted Answer

高校の指導要領では「不偏分散」を教えないから、膨大な数のデータの標準偏差について疑問が出たのだと思います。

ご質問中の文言ですが、

＞ 全部のデータから平均を出すのが難しい膨大な数のデータだから「サンプル」を用いる

の間違いではないですか？

また、標準偏差は「平均との乖離の２乗和＝偏差平方和」から計算するのですが、

＞ 標準偏差を導き出すのに全部のデータから「平均」を出して

の間違いではないですか？

もしそんな疑問を持たれたのなら、平均もサンプルの平均（ｘバー）を使います。

サンプルの偏差平方和を（ｎー１）で割ると、不偏分散になります。
全体のデータの偏差平方和をｎで割ると、分散になります。
そして、（点推定と言う意味で）それらは等しいです。
添付の式は、その証明です。

なお、不偏分散の平方根である標準偏差には「偏りがある」のは、前に書いた通りです。
ですから、冒頭に書かれた、

＞ 標準偏差のσ（シグマ）は、全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうです

この文章は「間違い」です。

ただし、全部のデータの分散とサンプル抽出データの不偏分散は等しくなります（添付式のとおり）。

左辺はサンプルの偏差平方和の期待値（点推定値）です。
最終的に導かれた値にあるσ^2は、全データの分散になります。

kamiyasiro · Answer

No.9です。

もうひとつ、注意すべきことをお伝えします。有限母集団修正についてです。

もし、全部のデータというのが全校生徒400人だとしましょう。
これを「有限母集団」といいます。

さて、この中から360人を標本として抽出したとします。A君が２度カウントされることはないとします。
これを「非復元抽出」といいます。

このように「有限の大きさの母集団」から、「大きな標本を非復元抽出で抽出する」とき、全体の分散と、サンプルの不偏分散は一致しません。当然、標準偏差も一致しません。
「有限母集団修正」という修正が必要になります。

たぶん、ご質問の冒頭のことを話された先生は、統計のことは詳しくないと思います。

詳しくはネットで調べてみて下さい。

kamiyasiro · Answer

No.7です。

サンプルの標準偏差（不偏分散の平方根）は小さい側に偏っている件
（それを不偏標準偏差なんて言ってはいけない件）

サンプルを使ったとき、どんな値が抽出されるかはその時々で違いますので、分散も標準偏差も分布ができます。

不偏（偏りがない）というのは、簡単に言えば、真値より大きく計算されるときと、小さく計算されるときとが、同じくらい起きるということです。
（厳密には違いますが・・・）

すなわち、中央値が真値に一致していれば、まあまあ良いことになります。

そこで、
・不偏分散の平方根から計算した標準偏差σと、
・不偏化補正として一般的なσ＝R／d2（レンジRを不偏化補正係数d2で割ったもの）を、
１万回のシミュレーションで比較しました。

添付図は標準偏差の分布で、その真値は１です。
左側の列は不偏分散の平方根のσ、右側の列がR／d2です。
縦は、上から標本数n＝２，３，４，５です。
ヒストグラム中の赤線と数字は中央値です。

これより、左側の不偏分散の平方根が、相当偏っていることがお分かりいただけると思います。（残念ながら、不偏化補正を行った右側も若干小さい側に寄っていますね。ですが、標本数が４くらいあれば大丈夫そうです）

tknakamuri · Answer

>全部のデータの標準偏差とサンプル抽出データの
>標準偏差は等しくなるそうですが

そんなわけないよね。省略するほど誤差が大きくなります。

>全部のデータから平均を出すのが難しい膨大な数のデータだから
>標準偏差を用いると書かれていたのに

後ろの文章と全然つながっていないですよね。

>標準偏差を導き出すのに全部のデータから標準偏差を出して、
>さらにサンプルから標準偏差を２度出しした方が計算処理は
>負荷が大きいのでは？

両方計算するってどこに書いてあったのしょう？
必要な精度を期待して必要なサンプル数で計算すれば十分。

kamiyasiro · Answer

ご質問者の疑問に水を差すようですが・・・

『標準偏差のσ（シグマ）は、全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなる』

これは間違いです。

教科書にこんなこと書くはずがありません。
たぶん、高校の先生が誤解している思います。
（分散では成立することを、標準偏差でも成立すると誤解している）
No.5さんが申されていること（サンプルの方は分布を持つこと）とは、ちょっと違います。

正しくは、
『分散σ^2（シグマ2乗）は、全部のデータの分散とサンプル抽出データの不偏分散は（点推定値という意味で）等しくなる。
その平方根である標準偏差では、これは成立しない。』

サンプル抽出データの標準偏差は不偏分散の平方根です。

不偏分散とはサンプルの偏差平方和を（nー1）で割ったものです。これは、全部のデータの分散の点推定値になります。まあ、等しいと言うことです。

しかし！　分散は不偏でも、その平方根である標準偏差は不偏ではありません。小さい側に偏ります。標準偏差では「等しい」は成立しないのです。とくに標本数が小さい時に偏りが顕著になります。

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1436950684

正しく推定するために、不偏化補正係数（c4、d2など）なるものがあります。
また、ガンマ関数を用いた不偏標準偏差という厳密解もあります。

ただし、ネット記事を見ると、不偏分散の平方根を不偏標準偏差と書いているアホもいます。というか、堂々と間違いを書くのはやめて欲しいです。

ご参考
https://qiita.com/tabintone/items/be96333166dd6d337ee8

yhr2 · Answer

No.5 です。

「記述統計」「推定統計」は、下記のような説明を見てください。
↓
https://avilen.co.jp/personal/knowledge-article/inductive-statistics/
https://www.criprof.com/magazine/2022/08/22/post-7062/

yhr2 · Answer

＞標準偏差のσ（シグマ）は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、

なりませんよ。
「不偏分散」というものを習いませんでしたか？

質問の趣旨が全く不明です。
母集団の「平均」も「分散、標準偏差」も「未知」であるのが普通です。
それを「限られたサンプルから推定する」のが、統計学の腕の見せ所である「推定統計」です。
あなたが書いているのは、単なる「記述統計」の話です。

「記述統計」「推定統計」をちょこっとでよいので勉強してください。

kairou · Answer

＞全てのデータから標準偏差を出すなら最初から
＞全部のデータから平均を出したらよいのでは？

データ数が 非常に多い場合、全データから 
平均や標準偏差を計算することが 出来ますか。
そんな計算は 不可能ですから、サンプルを使って
平均や標準偏差を計算しているのです。
理論的に 全データからの値と 誤差が無視できるような、
サンプル数を 決めています。
「全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなる」
のですから、全データから 計算する必要はありませんね。

finalbento · Answer

「全てのデータから」と言うのはあくまでも標準偏差の定義そのものです。実際には定義通りに標準偏差をもとめる事はできないので、サンプルをいくつか抽出する事によって「全部」の代わりにするわけです。

ssawatake · Answer

だから、サンプルの標準偏差を使うのです。
全部のデータの標準偏差=サンプルの標準偏差、って自分で書いてるよ。

【数学・標準偏差σ】標準偏差のσ（シグマ）は全部のデータの標準偏差とサンプル抽出データの

高校の指導要領では「不偏分散」を教えないから、膨大な数のデータの標準偏差について疑問が出たのだと思います。

No.9です。

No.7です。

>全部のデータの標準偏差とサンプル抽出データの

ご質問者の疑問に水を差すようですが・・・

No.5 です。

＞標準偏差のσ（シグマ）は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、

＞全てのデータから標準偏差を出すなら最初から

「全てのデータから」と言うのはあくまでも標準偏差の定義そのものです。

だから、サンプルの標準偏差を使うのです。

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング