dポイントプレゼントキャンペーン実施中!

【数学・標準偏差σ】標準偏差のσ(シグマ)は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、全部のデータから平均を出すのが難しい膨大な数のデータだから標準偏差を用いると書かれていたのに、標準偏差を導き出すのに全部のデータから標準偏差を出して、さらにサンプルから標準偏差を2度出しした方が計算処理は負荷が大きいのでは?

全てのデータから標準偏差を出すなら最初から全部のデータから平均を出したらよいのでは?

A 回答 (11件中1~10件)

高校の指導要領では「不偏分散」を教えないから、膨大な数のデータの標準偏差について疑問が出たのだと思います。



ご質問中の文言ですが、

> 全部のデータから平均を出すのが難しい膨大な数のデータだから「サンプル」を用いる

の間違いではないですか?

また、標準偏差は「平均との乖離の2乗和=偏差平方和」から計算するのですが、

> 標準偏差を導き出すのに全部のデータから「平均」を出して

の間違いではないですか?

もしそんな疑問を持たれたのなら、平均もサンプルの平均(xバー)を使います。

サンプルの偏差平方和を(nー1)で割ると、不偏分散になります。
全体のデータの偏差平方和をnで割ると、分散になります。
そして、(点推定と言う意味で)それらは等しいです。
添付の式は、その証明です。

なお、不偏分散の平方根である標準偏差には「偏りがある」のは、前に書いた通りです。
ですから、冒頭に書かれた、

> 標準偏差のσ(シグマ)は、全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうです

この文章は「間違い」です。

ただし、全部のデータの分散とサンプル抽出データの不偏分散は等しくなります(添付式のとおり)。

左辺はサンプルの偏差平方和の期待値(点推定値)です。
最終的に導かれた値にあるσ^2は、全データの分散になります。
「【数学・標準偏差σ】標準偏差のσ(シグマ」の回答画像11
    • good
    • 0
この回答へのお礼

みんなありがとうございます

お礼日時:2024/04/21 17:04

No.9です。



もうひとつ、注意すべきことをお伝えします。有限母集団修正についてです。

もし、全部のデータというのが全校生徒400人だとしましょう。
これを「有限母集団」といいます。

さて、この中から360人を標本として抽出したとします。A君が2度カウントされることはないとします。
これを「非復元抽出」といいます。

このように「有限の大きさの母集団」から、「大きな標本を非復元抽出で抽出する」とき、全体の分散と、サンプルの不偏分散は一致しません。当然、標準偏差も一致しません。
「有限母集団修正」という修正が必要になります。

たぶん、ご質問の冒頭のことを話された先生は、統計のことは詳しくないと思います。

詳しくはネットで調べてみて下さい。
    • good
    • 1

No.7です。



サンプルの標準偏差(不偏分散の平方根)は小さい側に偏っている件
(それを不偏標準偏差なんて言ってはいけない件)

サンプルを使ったとき、どんな値が抽出されるかはその時々で違いますので、分散も標準偏差も分布ができます。

不偏(偏りがない)というのは、簡単に言えば、真値より大きく計算されるときと、小さく計算されるときとが、同じくらい起きるということです。
(厳密には違いますが・・・)

すなわち、中央値が真値に一致していれば、まあまあ良いことになります。

そこで、
・不偏分散の平方根から計算した標準偏差σと、
・不偏化補正として一般的なσ=R/d2(レンジRを不偏化補正係数d2で割ったもの)を、
1万回のシミュレーションで比較しました。

添付図は標準偏差の分布で、その真値は1です。
左側の列は不偏分散の平方根のσ、右側の列がR/d2です。
縦は、上から標本数n=2,3,4,5です。
ヒストグラム中の赤線と数字は中央値です。

これより、左側の不偏分散の平方根が、相当偏っていることがお分かりいただけると思います。(残念ながら、不偏化補正を行った右側も若干小さい側に寄っていますね。ですが、標本数が4くらいあれば大丈夫そうです)
「【数学・標準偏差σ】標準偏差のσ(シグマ」の回答画像9
    • good
    • 0

>全部のデータの標準偏差とサンプル抽出データの


>標準偏差は等しくなるそうですが

そんなわけないよね。省略するほど誤差が大きくなります。

>全部のデータから平均を出すのが難しい膨大な数のデータだから
>標準偏差を用いると書かれていたのに

後ろの文章と全然つながっていないですよね。

>標準偏差を導き出すのに全部のデータから標準偏差を出して、
>さらにサンプルから標準偏差を2度出しした方が計算処理は
>負荷が大きいのでは?

両方計算するってどこに書いてあったのしょう?
必要な精度を期待して必要なサンプル数で計算すれば十分。
    • good
    • 0

ご質問者の疑問に水を差すようですが・・・



『標準偏差のσ(シグマ)は、全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなる』

これは間違いです。

教科書にこんなこと書くはずがありません。
たぶん、高校の先生が誤解している思います。
(分散では成立することを、標準偏差でも成立すると誤解している)
No.5さんが申されていること(サンプルの方は分布を持つこと)とは、ちょっと違います。

正しくは、
『分散σ^2(シグマ2乗)は、全部のデータの分散とサンプル抽出データの不偏分散は(点推定値という意味で)等しくなる。
その平方根である標準偏差では、これは成立しない。』


サンプル抽出データの標準偏差は不偏分散の平方根です。

不偏分散とはサンプルの偏差平方和を(nー1)で割ったものです。これは、全部のデータの分散の点推定値になります。まあ、等しいと言うことです。

しかし! 分散は不偏でも、その平方根である標準偏差は不偏ではありません。小さい側に偏ります。標準偏差では「等しい」は成立しないのです。とくに標本数が小さい時に偏りが顕著になります。

https://detail.chiebukuro.yahoo.co.jp/qa/questio …

正しく推定するために、不偏化補正係数(c4、d2など)なるものがあります。
また、ガンマ関数を用いた不偏標準偏差という厳密解もあります。

ただし、ネット記事を見ると、不偏分散の平方根を不偏標準偏差と書いているアホもいます。というか、堂々と間違いを書くのはやめて欲しいです。

ご参考
https://qiita.com/tabintone/items/be96333166dd6d …
    • good
    • 2

No.5 です。



「記述統計」「推定統計」は、下記のような説明を見てください。

https://avilen.co.jp/personal/knowledge-article/ …
https://www.criprof.com/magazine/2022/08/22/post …
    • good
    • 0

>標準偏差のσ(シグマ)は全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなるそうですが、



なりませんよ。
「不偏分散」というものを習いませんでしたか?

質問の趣旨が全く不明です。
母集団の「平均」も「分散、標準偏差」も「未知」であるのが普通です。
それを「限られたサンプルから推定する」のが、統計学の腕の見せ所である「推定統計」です。
あなたが書いているのは、単なる「記述統計」の話です。

「記述統計」「推定統計」をちょこっとでよいので勉強してください。
    • good
    • 1

>全てのデータから標準偏差を出すなら最初から


>全部のデータから平均を出したらよいのでは?

データ数が 非常に多い場合、全データから
平均や標準偏差を計算することが 出来ますか。
そんな計算は 不可能ですから、サンプルを使って
平均や標準偏差を計算しているのです。
理論的に 全データからの値と 誤差が無視できるような、
サンプル数を 決めています。
「全部のデータの標準偏差とサンプル抽出データの標準偏差は等しくなる」
のですから、全データから 計算する必要はありませんね。
    • good
    • 0

「全てのデータから」と言うのはあくまでも標準偏差の定義そのものです。

実際には定義通りに標準偏差をもとめる事はできないので、サンプルをいくつか抽出する事によって「全部」の代わりにするわけです。
    • good
    • 0

だから、サンプルの標準偏差を使うのです。


全部のデータの標準偏差=サンプルの標準偏差、って自分で書いてるよ。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています


このQ&Aを見た人がよく見るQ&A