No.11ベストアンサー
- 回答日時:
補足見ました。
もう一度、本質的な点だけに絞って整理します。例えば、母集団として、M=10個のデータがあるとします。 (「わたしの今年のボーリングのスコア全部」というのでも良いですね。)
計算が面倒だから、母集団からN=5個のサンプルをとって、これを使って「母集団の平均値と標準偏差を推定しよう」とする場合を考えます。
データを無作為に選んで作ったN=5個のサンプルは、偶然のために、多少大きい目か、小さい目の方に偏ってしまいます。だから、サンプルから計算した平均値は、「母集団の本当の平均値」に比べて、多少大きい目か、小さい目の方にずれてしまいます。
しかしこの計算で出た平均値を「母集団の平均値の推定値」として使わざるを得ません。サンプルが大きい目の方に偏っているか、小さい目の方に偏っているかは分からないからです。
次に、この同じ5個のサンプルを使って、母集団の標準偏差を推定します。この場合、計算に使う平均値がそもそも「母集団の本当の平均値」に比べてずれている。この「偶然のずれ」の影響が最低限になるように補正するのが、標準偏差の計算式の分母にあるN-1 の「-1」の部分なのです。(どうして-1を付けると良いのか、というのが前の回答で数式で示した内容ですが、あんまり気にしないで。)
「自由度」という言葉については、以下のように考えると良いです。
●「なんでも良いから5個数値を書きなさい。」と言われれば、5個の数値を好きなように選べます。これが自由度5。
●「なんでも良いから5個数値を書きなさい。ただし、その平均値が100になるようにしなさい」と言われれば、4個の数値a,b,c,dは好きに選んで良いのですが、5個目のeは、「平均値が100になる」という条件から、自動的に決まってしまいます。
だから、自由に選べるのは4個。つまり自由度4。
●「なんでも良いから5個数値を書きなさい。ただし、その平均値が100、標準偏差が10になるようにしなさい、」と言われれば、3個の数値a,b,cは好きに選んで良いのですが、4個目のdと5個目のeは、「平均値が100、標準偏差が10になる」という条件から、自動的に決まってしまいます。
だから、自由に選べるのは3個。つまり自由度3。
なお、前の回答の数式は、Σを使っているのが難しさの理由かも知れません。どうしても必要なら、N=4ぐらいにして(つまりΣx[j] の代わりにx[1]+x[2]+x[3]+x[4]に書き換えて)追っていってはどうでしょうか。
なるほど!理解できましたあ!
ありがとうございます。
当初私、「標準偏差」が統計学の分野であることも知らずにおりましたが、おかげで少しはお利口になりました。
何がわからないかがわからない状態でしたので、どこに行くか分からない補足質問をしましてすいません。
そんな私に丁寧に回答して頂いた他のみなさん、kawakawa様、MiJun様、mako18様、nanashisan様にもこの場を借りてお礼申し上げます。
ただ、少し賢くはなりましたが、その分この質問に関連してまだまだ分からないこと知りたいことがたくさんあることに気付きました。
そこでこの質問を一旦締め切り、年が明けたら今度はもう少し具体的に問題を絞り込んで別の質問を立てたいと思いますので、その時はまた来たかとよろしくお願い致します。
それではよいお年を!
No.10
- 回答日時:
うう。
どうしても長文になっちゃうなあ。自由度一般については、とりあえず別件にしましょう。この質問に関連する「自由度」というのは、分散(平方根を取る前のやつ)の分母がなんでNではなくてN-1なのかってことです。この-1がどこから出てきたのか。
まずは問題を整理すると共に、必要な概念を説明します。しんどいけど、おつきあい願います。
●母集団とサンプルの区別が重要になります。母集団というのはあらゆるデータ全部集めたやつ(無限集合かもしれない)。サンプルはその母集団の中から、無作為に選んだ代表の集合ですね。(無作為が重要。でかいのだけ選んだりしたら、以下の話は成り立ちません。)
●もし、母集団の全データを利用できれば、平均と標準偏差はきっかり決まります。これは推定ではない。母集団のデータy[j]の数がM個なら、平均A、分散D^2 およびその平方根である標準偏差Dは
A = (Σy[j])/M (Σはj=1,2,....,Mについての和)
D^2 = {Σ(y[j] - A)^2}/M(Σはj=1,2,....,Mについての和)
で計算できる。しかし通常はサンプルしか得られないから、これらの式は使い物にならない。
●「N個のサンプルx[j] (j=1,2,...,N)から、母集団の平均と分散を推定しよう」という時には、「不偏推定」という考え方を取ります。つまり、サンプルしかないのだから正確な値は絶対出ないけれども、最も正解である確率が高くなるような最良の推定を行います。
●このような不偏推定は、母集団の平均Aの推定値aに関しては
a = (Σx[j])/N (Σはj=1,2,....,Nについての和)
になる。つまり、(a-A)の期待値は0です。(無作為にサンプルを選ぶのが条件ですよ。)
さてここで、(a-A)^2の期待値はいくらかというと、(D^2/N)になります。
(なんでか?はめんどいので堪忍。)
もちろん、サンプルには偶然の偏りがあるから、Aとはずれている訳です。
そして母集団の分散D^2の推定値σ^2に関しては
σ^2 = {Σ(x[j] - A)^2}/N(Σはj=1,2,....,Nについての和)
です。よく見て!! 分母はNです。ところがこの計算は実行不可能。Aが分からないからです。
そこで、Aの代わりにaを使わなくてはならない。この場合の不偏推定は
σ^2 = {Σ(x[j] - a)^2}/(N-1)(Σはj=1,2,....,Nについての和)
になる。
●直感的に言えば:
Aの代わりにaを使いました。ところが、サンプルに偏りがあって、たとえばちょっと大きめに偏ったとすると、aはAよりちょっと大きめに出てしまう。さて、そのaを基準にして分散を計算すると、ちょっと小さめに出てしまう。
なぜなら、基準になる平均aが大きい方にずれているために、「大きいサンプルが真の平均よりどれだけ大きいか」が小さめに見えてしまい、「小さいサンプルが真の平均よりどれだけ小さいか」が大きめに見える。サンプル集団には小さいのよりは大きいのが多めに入ってますから、全体としては、ばらつきが小さめに見えてしまう。~あかん。全然直感的じゃないかな~
●こんどはいい加減な数式で迫ってみましょう。
Nσ^2 = {Σ(x[j] - A)^2} ={ Σ(x[j] - a+(a-A))^2}
= (Σ{(x[j] - a)^2+(a-A)^2-2(a-A)(x[j] - a)})
= (Σ(x[j] - a)^2)+{Σ(a-A)^2}-2(a-A){Σ(x[j] - a)}
ここでΣ(x[j] - a)=Σ(x[j] )- aN = 0 ですから、
Nσ^2 = (Σ(x[j] - a)^2)+N(a-A)^2
です。ここで、(a-A)^2の期待値(D^2/N)を入れると、(誤差はあるけど期待値としては)
Nσ^2 = (Σ(x[j] - a)^2)+(D^2)
である。σ^2はD^2の期待値の筈ですから、D^2はσ^2と同じと考えたって、まあよろしい。よって
Nσ^2 = (Σ(x[j] - a)^2)+(σ^2)
(N-1) σ^2= (Σ(x[j] - a)^2)
よって、
σ^2= (Σ(x[j] - a)^2)/(N-1)
まあ、そういう事です。
●もし、サンプルを選んで母集団の平均を推定してaを得た後、改めてサンプルを選び直してから、母集団の分散を推定するという場合には、
σ^2 = {Σ(x[j] - a)^2}/N(Σはj=1,2,....,Nについての和)
が不偏推定になります。
●ここまでのまとめ
母集団の本当の平均値Aが分からないので、サンプル集団から求めた平均値aを使った。そして、その同じサンプル集団に対して、aを使って分散を計算した。これが(N-1)の原因。
●「自由度」という言葉を使って.....
もともとN個あったサンプルx[j](j=1,2,..N)は自由度Nです。おおざっぱに言えば、N個のパラメータがそれぞれ独立に変化しうる、ということを自由度Nと言うわけです。
平均値a(1個の数値。自由度1)を求めて引き算し、(x[j]-a)を作りますと、平均値aと、(x[j]-a)(j=1,2,..N)の、合わせてN+1個の数値がある。
しかし、「(x[j]-a)(j=1,2,..N)の合計は必ず0でなくてはならない」という制限が加わっている。だから一つ欠けても元のx[j]が全部再現できます。つまり{平均値aと、(x[j]-a)(j=1,2,..N)}はやはり自由度Nを持っている。
もしN個の数値(x[j]-a)(j=1,2,..N)だけ知っている(aは不明)なら自由度はN-1になり、元のx[j]の再現はもはや不可能ですが、どれか一つが欠けても(x[j]-a)(j=1,2,..N)は再現できる訳です。
この回答への補足
うーん私のレベルでは難解すぎて...
何とか概念だけでも理解しようとここ数日幾度か読み返して参りましたが、特に数式の部分はロゼッタストーンを眺める酔っぱらいの如くただ眼をうつろにして呆然とするばかりです。
でも、私でも理解し得る断片を集めて私なりに解釈するとすれば、自由度とはサンプル(全集団のデータを計算することが不可能なために全集団から無作為に取り出したサンプル、若しくは過去の集団から未来を推定する目的での過去の全集団でもいいのかな?)を真の全集団のデータに少しでも近づけるために連続的にサンプルの変化を評価するしくみ....自分でも何が言いたいのかよくわかりませんが、こんな感じなのでしょうか?
No.8
- 回答日時:
に質問を立てた者ですが、質問する態度が悪いためか回答がありません。
ここでの回答欄にあるURLをたどってだいたい理解することができました。
誰か暇があったら、チャチャでも入れに来て下さいな。回答が一つもないと閉じることも補足するともできませんので。
標準偏差の計算はstomachmanさんが正しいようです。
あと便乗質問で恐縮ですが、『自由度』ってなんですか。
母集団全体だとn-1じゃなくてnとなるようですが。(エクセルだと、STDEVPのほう)
参考URL:http://oshiete1.goo.ne.jp/kotaeru.php3?q=20620
この回答への補足
便乗されている質問者のrickbonです。
大元の質問が大雑把なためか、みなさんからいろいろなご回答を頂きたいへん参考になっております。
が、同時に新たな疑問もたくさん出てきました。
もう何から手を付けようか迷う位です。
自由度ってなに?工程能力指数って工程能力を評価できるってこと?標準偏差のこんなややこしい公式を考えたのはだれ?私の質問はいつ締め切ればいいの?etc...
No.7
- 回答日時:
kawakawa教授てば、計算法が変です。
(個々の数値と平均値との差)の2乗の総和を求め、
データ数から1を引いたもので割って、
それから平方根を取るんです。
No.5
- 回答日時:
再々登場です。
申し訳ないです!はじめの回答の計算式の訂正!
個々の数値と平均値の差の総和を求め、その平方根を、データ数から1を引いたもので割ると標準偏差になります。
ふと間違いに気付いちゃいました‥
それから、2つ以上のデータ集合の比較に使います。
平均値±標準偏差を棒グラフで示してみてください。そして、その数値が小さい方のデータの平均値+標準偏差と、数値が大きいほうのデータの平均値-標準偏差の数値がかぶっていなければ、それらの集団は明らかに違うものであると言えます。本当はt検定という統計手法を用いて、それらの集団に有意差があるかないかを調べるのですが、グラフ化してみれば、おおよその予想がつきます。
競馬で2頭の馬の成績を統計処理し、グラフ化してやれば、実力に明らかな差があるのかどうかを判断することができますネ。
以上kawakawaでした
平方根でしたか。
実は計算してみるととんでもない数値になりましたので、自分の算数の能力を疑っていたところです。
ありがとうございました。
No.4
- 回答日時:
再登場です。
補足を拝見しました。
競馬のタイムの予測に偏差は応用できるかということですネ。
それをするためには、まず、予測的バリデーションを行います。これは,過去のデータを蓄積し、それらの解析から平均値±(標準偏差の三倍)範囲を求めて予測を行います。ついで、実際の結果を取り入れて同時的バリデーションを行います。そして、それらの結果から回顧的バリデーションを行い検証するという段階を経て、初めて、予測にデータを応用する準備が整います。
結局は、±3σという平均値±(標準偏差の三倍)範囲内にデータが来れば、それは異常値ではないということを認識する程度の予測なのですけどネ。
あらゆるギャンブルは数学的な解析を積むことで勝つことができるという説もありますネ。そこまで数学的な能力があれば、ギャンブルなんかに頼る必要はなくなるでしょうけど‥
No.3
- 回答日時:
補足します。
近くの図書館で、以下の成書の中であれば、その本を開いてご自分が見て分かりやすいと思うものを選んでみては如何でしょうか?
(ポイントはどの分野で統計手法を使いたいのか、PCを
使用しながらか等です。)
-----------------------------------------------
1.統計学入門/沖津直/八千代出版/1998.4
2.Excelで学ぶ統計学入門/第2巻/長谷川勝也/技術評論社/1998.2
3.Excelで学ぶ統計学入門/第1巻/長谷川勝也/技術評論社/1998.2
4.看護研究のための統計学入門/中野正孝/医学書院/1997.9
5.確率・統計学入門/勝野恵子/八千代出版/1997.1
6.PT・OTのための統計学入門/渡辺宗孝/三輪書店/1997.2
7.統計学入門/杉田暉道,栃久保修/医学書院/1997.1
8.医薬統計学入門/スタントン・A.グラ…[他]/メディカルリサーチセ…/1996.4
9.生物統計学入門/新城明久/朝倉書店/1996.10
10.心理・教育のための統計学入門/渡部洋/金子書房/1996.7
11.PC SASによる基礎統計学入門/新城明久/東海大学出版会/1995.1
12.医歯系・生物系の統計学入門/O.J.ダン[他]/大竹出版/1994.3
13.統計学入門/2/蓑谷千凰彦/東京図書/1994.7
14.統計学入門/下/エドウィン・マンスフ…[他]/多賀出版/1994.4
15.計算機統計学入門/Mark C.K.Y…[他]/エム・ピー・シー/1994.4
16.統計学入門/上/エドウィン・マンスフ…[他]/多賀出版/1994.2
17.統計学入門/1/蓑谷千凰彦/東京図書/1994.2
18.統計学入門/大薮和雄,大野拓行/大学教育出版/1993.10
19.生物実験のための統計学入門/山田武/川島書店/1993.3
20.保健・医療・看護・福祉系の統計学入門/阿部剛久,佐久間淳/大竹出版/1992.4
21.統計学入門/稲垣宣生/裳華房/1992.11
22.ひとりで学べる統計学入門/並木博,渡辺恵子/慶応通信/1992.3
23.よくわかる医療・看護のための統計学入門/高木広文,三宅由子/メディカ出版/1991.8
24.基礎統計学/1/東京大学教養学部統計…/東京大学出版会/1991.7
25.統計学入門/杉田暉道,津田忠美/医学書院/1990.11
26.統計学入門/森棟公夫/新世社/1990.12
27.統計学入門/平林宏朗/槙書店/1990.11
28.パソコン統計学入門/芹沢正三/講談社/1990.2
---------------------------------------------
最近であれば、PCを使いながら学んだ方が良いと思います。
ご参考まで。
こんなにたくさんの本をご紹介下さりありがとうございます。
今度、町の図書館に行った折に2か5か28あたりをあたってみようと思ってます。
No.2
- 回答日時:
以下の参考URLサイトが簡単に具体例が説明されて参考になります。
更に、専門的には医学・薬学・生物(・人間)等の集団
(データ集団)を扱う数学的技法です。つまり、データのバラツキ(簡単に言えば直線に乗らないデータ)の多い場合に統計学的手法が使われます。
専門的には、興味があれば以下のサイトを覗いて下さい。
1.http://w3.cc.nagasaki-u.ac.jp/contrib/Excel/youg …
(統計用語)
2、http://www.ec.kagawa-u.ac.jp/~hori/statedu.html
(WWWで統計を学習しよう)
統計関連のサイトリンクです。
これら以外にも沢山のサイト及び成書等がありますので、
興味があれば図書館で本をさがされる事をお勧めします。
初歩の成書が知りたければ補足お願いします。
参考URL:http://www.netlaputa.ne.jp/~onoe_com/com/kaisetu …
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
N数?n数?サンプル数の「エヌ...
-
統計でいう「n」は、何の略な...
-
t検定のt値について
-
標準体重の求め方
-
時系列データの検定
-
信頼区間から標準偏差の求め方
-
評価者により採点に差が出るこ...
-
適正なサンプル数について
-
正規分布に従わないと標準偏差...
-
統計学でいうRSD%とは何ですか。
-
標準偏差
-
偏差値60の人と偏差値50の人が...
-
幾何標準偏差の求め方
-
工程能力のN数補正について
-
社会人の偏差値の調べ方
-
統計学における有効数字につい...
-
中学1.2年で5教科の合計点が350...
-
比率の平均値と、平均値の比率...
-
標準偏差バーをグラフに入れた...
-
偏差値から順位を求めるには
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
おすすめ情報