基本的な質問ですが

Question

標準偏差ってなんですか？
具体的にどんな場面で使って、何を意味するものでしょうか？
また、その計算方法は？
お馬鹿な質問ですいません。

stomachman · Accepted Answer

補足見ました。もう一度、本質的な点だけに絞って整理します。

　例えば、母集団として、M=１０個のデータがあるとします。　（「わたしの今年のボーリングのスコア全部」というのでも良いですね。）
　計算が面倒だから、母集団からN=5個のサンプルをとって、これを使って「母集団の平均値と標準偏差を推定しよう」とする場合を考えます。
　データを無作為に選んで作ったN=5個のサンプルは、偶然のために、多少大きい目か、小さい目の方に偏ってしまいます。だから、サンプルから計算した平均値は、「母集団の本当の平均値」に比べて、多少大きい目か、小さい目の方にずれてしまいます。
　しかしこの計算で出た平均値を「母集団の平均値の推定値」として使わざるを得ません。サンプルが大きい目の方に偏っているか、小さい目の方に偏っているかは分からないからです。
　次に、この同じ５個のサンプルを使って、母集団の標準偏差を推定します。この場合、計算に使う平均値がそもそも「母集団の本当の平均値」に比べてずれている。この「偶然のずれ」の影響が最低限になるように補正するのが、標準偏差の計算式の分母にあるN-1 の「-1」の部分なのです。（どうして-1を付けると良いのか、というのが前の回答で数式で示した内容ですが、あんまり気にしないで。）

「自由度」という言葉については、以下のように考えると良いです。
●「なんでも良いから5個数値を書きなさい。」と言われれば、５個の数値を好きなように選べます。これが自由度5。
●「なんでも良いから5個数値を書きなさい。ただし、その平均値が１００になるようにしなさい」と言われれば、４個の数値a,b,c,dは好きに選んで良いのですが、５個目のeは、「平均値が１００になる」という条件から、自動的に決まってしまいます。
　だから、自由に選べるのは4個。つまり自由度4。
●「なんでも良いから5個数値を書きなさい。ただし、その平均値が１００、標準偏差が10になるようにしなさい、」と言われれば、３個の数値a,b,cは好きに選んで良いのですが、４個目のdと５個目のeは、「平均値が１００、標準偏差が10になる」という条件から、自動的に決まってしまいます。
　だから、自由に選べるのは3個。つまり自由度3。

　なお、前の回答の数式は、Σを使っているのが難しさの理由かも知れません。どうしても必要なら、N=4ぐらいにして（つまりΣx[j]　の代わりにx[1]+x[2]+x[3]+x[4]に書き換えて）追っていってはどうでしょうか。

stomachman · Answer

うう。どうしても長文になっちゃうなあ。
自由度一般については、とりあえず別件にしましょう。この質問に関連する「自由度」というのは、分散（平方根を取る前のやつ）の分母がなんでNではなくてN-1なのかってことです。この-1がどこから出てきたのか。

まずは問題を整理すると共に、必要な概念を説明します。しんどいけど、おつきあい願います。

●母集団とサンプルの区別が重要になります。母集団というのはあらゆるデータ全部集めたやつ（無限集合かもしれない）。サンプルはその母集団の中から、無作為に選んだ代表の集合ですね。（無作為が重要。でかいのだけ選んだりしたら、以下の話は成り立ちません。）

●もし、母集団の全データを利用できれば、平均と標準偏差はきっかり決まります。これは推定ではない。母集団のデータy[j]の数がM個なら、平均A、分散D^2　およびその平方根である標準偏差Dは
A = (Σy[j])/M　（Σはj=1,2,....,Mについての和）
D^2 = {Σ(y[j] - A)^2}/M（Σはj=1,2,....,Mについての和）
で計算できる。しかし通常はサンプルしか得られないから、これらの式は使い物にならない。

●「N個のサンプルx[j] (j=1,2,...,N)から、母集団の平均と分散を推定しよう」という時には、「不偏推定」という考え方を取ります。つまり、サンプルしかないのだから正確な値は絶対出ないけれども、最も正解である確率が高くなるような最良の推定を行います。

●このような不偏推定は、母集団の平均Aの推定値aに関しては
a = (Σx[j])/N 　（Σはj=1,2,....,Nについての和）
になる。つまり、(a-A)の期待値は0です。（無作為にサンプルを選ぶのが条件ですよ。）
さてここで、(a-A)^2の期待値はいくらかというと、(D^2/N)になります。
（なんでか？はめんどいので堪忍。）

もちろん、サンプルには偶然の偏りがあるから、Aとはずれている訳です。
　そして母集団の分散D^2の推定値σ^2に関しては
σ^2 = {Σ(x[j] - A)^2}/N（Σはj=1,2,....,Nについての和）
です。よく見て！！ 分母はNです。ところがこの計算は実行不可能。Aが分からないからです。
　そこで、Aの代わりにaを使わなくてはならない。この場合の不偏推定は
σ^2 = {Σ(x[j] - a)^2}/(N-1)（Σはj=1,2,....,Nについての和）
になる。

●直感的に言えば：
　Aの代わりにaを使いました。ところが、サンプルに偏りがあって、たとえばちょっと大きめに偏ったとすると、aはAよりちょっと大きめに出てしまう。さて、そのaを基準にして分散を計算すると、ちょっと小さめに出てしまう。
　なぜなら、基準になる平均aが大きい方にずれているために、「大きいサンプルが真の平均よりどれだけ大きいか」が小さめに見えてしまい、「小さいサンプルが真の平均よりどれだけ小さいか」が大きめに見える。サンプル集団には小さいのよりは大きいのが多めに入ってますから、全体としては、ばらつきが小さめに見えてしまう。～あかん。全然直感的じゃないかな～

●こんどはいい加減な数式で迫ってみましょう。
Nσ^2 = {Σ(x[j] - A)^2} ={ Σ(x[j] - a+(a-A))^2}
= (Σ{(x[j] - a)^2+(a-A)^2-2(a-A)(x[j] - a)}) 
= (Σ(x[j] - a)^2)+{Σ(a-A)^2}-2(a-A){Σ(x[j] - a)}
ここでΣ(x[j] - a)=Σ(x[j] )- aN = 0 ですから、
Nσ^2 = (Σ(x[j] - a)^2)+N(a-A)^2
です。ここで、(a-A)^2の期待値(D^2/N)を入れると、（誤差はあるけど期待値としては）
Nσ^2 = (Σ(x[j] - a)^2)+(D^2)
である。σ^2はD^2の期待値の筈ですから、D^2はσ^2と同じと考えたって、まあよろしい。よって
Nσ^2 = (Σ(x[j] - a)^2)+(σ^2)
(N-1) σ^2= (Σ(x[j] - a)^2)
よって、
σ^2= (Σ(x[j] - a)^2)/(N-1) 
まあ、そういう事です。

●もし、サンプルを選んで母集団の平均を推定してaを得た後、改めてサンプルを選び直してから、母集団の分散を推定するという場合には、
σ^2 = {Σ(x[j] - a)^2}/N（Σはj=1,2,....,Nについての和）
が不偏推定になります。

●ここまでのまとめ
母集団の本当の平均値Aが分からないので、サンプル集団から求めた平均値aを使った。そして、その同じサンプル集団に対して、aを使って分散を計算した。これが(N-1)の原因。

●「自由度」という言葉を使って.....
　もともとN個あったサンプルx[j](j=1,2,..N)は自由度Nです。おおざっぱに言えば、N個のパラメータがそれぞれ独立に変化しうる、ということを自由度Nと言うわけです。
　平均値a（１個の数値。自由度１)を求めて引き算し、(x[j]-a)を作りますと、平均値aと、(x[j]-a)(j=1,2,..N)の、合わせてN+1個の数値がある。
　しかし、「(x[j]-a)(j=1,2,..N)の合計は必ず0でなくてはならない」という制限が加わっている。だから一つ欠けても元のx[j]が全部再現できます。つまり｛平均値aと、(x[j]-a)(j=1,2,..N)}はやはり自由度Nを持っている。
　もしN個の数値(x[j]-a)(j=1,2,..N)だけ知っている(aは不明)なら自由度はN-1になり、元のx[j]の再現はもはや不可能ですが、どれか一つが欠けても(x[j]-a)(j=1,2,..N)は再現できる訳です。

stomachman · Answer

質問者をほったらかしてごめんなさいね。

nanashisanさんてば、便乗しないで、是非別の質問を立ててくださいよ。「自由度」の質問は他にも来そうな話ですから。

nanashisan · Answer

http://oshiete1.goo.ne.jp/kotaeru.php3?q=20620
に質問を立てた者ですが、質問する態度が悪いためか回答がありません。
ここでの回答欄にあるURLをたどってだいたい理解することができました。
誰か暇があったら、チャチャでも入れに来て下さいな。回答が一つもないと閉じることも補足するともできませんので。

標準偏差の計算はstomachmanさんが正しいようです。

あと便乗質問で恐縮ですが、『自由度』ってなんですか。
母集団全体だとn-1じゃなくてnとなるようですが。(エクセルだと、STDEVPのほう)

参考URL：http://oshiete1.goo.ne.jp/kotaeru.php3?q=20620

stomachman · Answer

kawakawa教授てば、計算法が変です。

（個々の数値と平均値との差）の２乗の総和を求め、
データ数から１を引いたもので割って、
それから平方根を取るんです。

mako18 · Answer

標準偏差とは
標準なのか変なのかを調べるものです

標準？変さ

なーーんちゃって

kawakawa · Answer

再々登場です。
申し訳ないです！はじめの回答の計算式の訂正！
個々の数値と平均値の差の総和を求め、その平方根を、データ数から１を引いたもので割ると標準偏差になります。
ふと間違いに気付いちゃいました‥
それから、２つ以上のデータ集合の比較に使います。
平均値±標準偏差を棒グラフで示してみてください。そして、その数値が小さい方のデータの平均値＋標準偏差と、数値が大きいほうのデータの平均値－標準偏差の数値がかぶっていなければ、それらの集団は明らかに違うものであると言えます。本当はｔ検定という統計手法を用いて、それらの集団に有意差があるかないかを調べるのですが、グラフ化してみれば、おおよその予想がつきます。
競馬で２頭の馬の成績を統計処理し、グラフ化してやれば、実力に明らかな差があるのかどうかを判断することができますネ。
以上kawakawaでした

kawakawa · Answer

再登場です。
補足を拝見しました。
競馬のタイムの予測に偏差は応用できるかということですネ。
それをするためには、まず、予測的バリデーションを行います。これは，過去のデータを蓄積し、それらの解析から平均値±（標準偏差の三倍）範囲を求めて予測を行います。ついで、実際の結果を取り入れて同時的バリデーションを行います。そして、それらの結果から回顧的バリデーションを行い検証するという段階を経て、初めて、予測にデータを応用する準備が整います。
結局は、±３σという平均値±（標準偏差の三倍）範囲内にデータが来れば、それは異常値ではないということを認識する程度の予測なのですけどネ。
あらゆるギャンブルは数学的な解析を積むことで勝つことができるという説もありますネ。そこまで数学的な能力があれば、ギャンブルなんかに頼る必要はなくなるでしょうけど‥

MiJun · Answer

補足します。
近くの図書館で、以下の成書の中であれば、その本を開いてご自分が見て分かりやすいと思うものを選んでみては如何でしょうか？
（ポイントはどの分野で統計手法を使いたいのか、ＰＣを
使用しながらか等です。）
-----------------------------------------------
１．統計学入門／沖津直／八千代出版／１９９８．４　
２．Ｅｘｃｅｌで学ぶ統計学入門／第２巻／長谷川勝也／技術評論社／１９９８．２　
３．Ｅｘｃｅｌで学ぶ統計学入門／第１巻／長谷川勝也／技術評論社／１９９８．２　
４．看護研究のための統計学入門／中野正孝／医学書院／１９９７．９　
５．確率・統計学入門／勝野恵子／八千代出版／１９９７．１　
６．ＰＴ・ＯＴのための統計学入門／渡辺宗孝／三輪書店／１９９７．２　
７．統計学入門／杉田暉道，栃久保修／医学書院／１９９７．１　
８．医薬統計学入門／スタントン・Ａ．グラ…［他］／メディカルリサーチセ…／１９９６．４　
９．生物統計学入門／新城明久／朝倉書店／１９９６．１０　
１０．心理・教育のための統計学入門／渡部洋／金子書房／１９９６．７　
１１．ＰＣ　ＳＡＳによる基礎統計学入門／新城明久／東海大学出版会／１９９５．１　
１２．医歯系・生物系の統計学入門／Ｏ．Ｊ．ダン［他］／大竹出版／１９９４．３　
１３．統計学入門／２／蓑谷千凰彦／東京図書／１９９４．７　
１４．統計学入門／下／エドウィン・マンスフ…［他］／多賀出版／１９９４．４　
１５．計算機統計学入門／Ｍａｒｋ　Ｃ．Ｋ．Ｙ…［他］／エム・ピー・シー／１９９４．４　
１６．統計学入門／上／エドウィン・マンスフ…［他］／多賀出版／１９９４．２　
１７．統計学入門／１／蓑谷千凰彦／東京図書／１９９４．２　
１８．統計学入門／大薮和雄，大野拓行／大学教育出版／１９９３．１０　
１９．生物実験のための統計学入門／山田武／川島書店／１９９３．３　
２０．保健・医療・看護・福祉系の統計学入門／阿部剛久，佐久間淳／大竹出版／１９９２．４　
２１．統計学入門／稲垣宣生／裳華房／１９９２．１１　
２２．ひとりで学べる統計学入門／並木博，渡辺恵子／慶応通信／１９９２．３　
２３．よくわかる医療・看護のための統計学入門／高木広文，三宅由子／メディカ出版／１９９１．８　
２４．基礎統計学／１／東京大学教養学部統計…／東京大学出版会／１９９１．７　
２５．統計学入門／杉田暉道，津田忠美／医学書院／１９９０．１１　
２６．統計学入門／森棟公夫／新世社／１９９０．１２　
２７．統計学入門／平林宏朗／槙書店／１９９０．１１　
２８．パソコン統計学入門／芹沢正三／講談社／１９９０．２　
---------------------------------------------
最近であれば、ＰＣを使いながら学んだ方が良いと思います。

ご参考まで。

MiJun · Answer

以下の参考ＵＲＬサイトが簡単に具体例が説明されて参考になります。
　更に、専門的には医学・薬学・生物（・人間）等の集団
（データ集団）を扱う数学的技法です。つまり、データのバラツキ（簡単に言えば直線に乗らないデータ）の多い場合に統計学的手法が使われます。
　専門的には、興味があれば以下のサイトを覗いて下さい。
１．http://w3.cc.nagasaki-u.ac.jp/contrib/Excel/yougo.html
（統計用語）
２、http://www.ec.kagawa-u.ac.jp/~hori/statedu.html
（WWWで統計を学習しよう）
統計関連のサイトリンクです。

これら以外にも沢山のサイト及び成書等がありますので、
興味があれば図書館で本をさがされる事をお勧めします。

初歩の成書が知りたければ補足お願いします。

参考URL：http://www.netlaputa.ne.jp/~onoe_com/com/kaisetuh.htm

基本的な質問ですが

補足見ました。

うう。

この回答への補足

質問者をほったらかしてごめんなさいね。

この回答への補足

この回答への補足

kawakawa教授てば、計算法が変です。

標準偏差とは

再々登場です。

再登場です。

補足します。

以下の参考ＵＲＬサイトが簡単に具体例が説明されて参考になります。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング