今だけ人気マンガ100円レンタル特集♪

質問させていただきます。

平均値±標準誤差はわかるのですが
平均値±標準偏差は何を表しているのかよくわかりません

どなたかご教授ください・・・。

このQ&Aに関連する最新のQ&A

A 回答 (16件中1~10件)

No13の補足について



 オリジナルのご質問のなかの、
 >平均値±標準誤差はわかるのですが
の書き込みで、標準偏差と標準誤差を逆にとっておられるかもしれない、ということに気づくべきした。というのも、標準誤差について書いてあるテキストは少ないからで、標準誤差がわかるなら、統計学の初歩はご理解されているハズ、だからです。

 さて、母集団とというのは、自分が対象としようとしている集団全体が、母集団です。例えば、A校の一年生と二年生を比較しようとする場合は、それぞれ1年生と2年生全員が母集団ということになります。ですがら、無限ではありません。
 ヒトについての場合は、ヒト全体が母集団になります。実験者が、現在生存するヒト、と断らない限り、理論上は亡くなったヒトや将来生まれてくるヒトも対象になるので、ヒトという母集団は、無限になります。実際は、何歳のヒト、とか条件がつくので、数学的には有限になります。
 とにかく、対象としようとするもの全てが母集団で、無限であることは絶対条件ではありません。


 母集団は、ひつと一つの集まり全体です。その中から、一つを取り出す操作を抽出、といいます。抽出時には、作為(実験者の意志)が入るのはマズイので、無作為抽出を行います。サイコロをふって決めるのは、イカサマのサイコロでなければ、偶然によって決まるので作為は入らず、無作為抽出になります。最近は、コンピュータで、乱数表を発生させ、それによって決めるとか。

 標本は、抽出されて、取り出されたものです。

 6人いて、誰に当番をさせるかを決める場合、サイコロを振って決まるのは偶然です。サイコロを振るのが抽出、当番に当たったヒトがサンプルです。

 サンプル数は、一つでも、複数でもいいのです。しかし、統計学では、サンプルが一つの場合はマレ(偶然性が強すぎる、あるいは平均も標準偏差が計算できないので全体が見えない)なので、サンプルといえば複数を想定します。
 サンプルたち、とお書きにならなくても、複数を対象にしていると判断できれば、そのように想定します。
    • good
    • 0

また、お邪魔します。


まだ論争(?)が続いてたんですね(笑)

私も、遅ればせながら「標準誤差」という言葉の定義を調べてきました。
標準偏差÷√nだったんですね。
そういえば、これ、実験の基礎知識でした。(「95%」という数字は全く忘れていました)

というわけで、あらためて整理しますと、

>実際に測定した値たちの平均値±標準誤差、に値たちの約68%が収まるか?
→Yes

>真の平均値は、平均値±標準偏差、内に95%の確率であるか?
→Yes

2番目のほうは、QCの本で、なんちゃら検定だか危険率5%だかという用語で載ってたような気がします。


以下、引用です。

基礎科学分野の測定の場合,例えば地球の質量や月までの距離を正確に知りたいとき,その値(母平均μ)が中心課題となり,何回かの測定実験による標本平均値から真値がどの範囲にあるか示すため,標準誤差などを用いる。
(下記、参考URL)

参考URL:http://www2.ttcn.ne.jp/~t.shimba/tsfiles/Comment …
    • good
    • 1

もとの質問については理解が済んだのでしょうか?



>平均値±標準偏差は何を表しているのかよくわかりません
について,別の観点からお答えします。

正規分布のグラフはご存じですね?
横座標で,平均値+標準偏差と平均値-標準偏差 のところがこの曲線の変曲点です。この横座標の間は曲線が上に凸,その外側は下に凸の形状をしています。

(今までのやり取りをみれば,質問はこんなことを聞いているんじゃなかったんでしょうね,きっと・・・  失礼しました。でももとの質問だけからは何を聞きたいのかよくわからなかったので,ちょっとわき道にそれてみました )

この回答への補足

はい! 理解できました有難うございます。

私、質問した当初は
平均値±標準偏差
平均値±標準誤差

を正反対に解釈してました(ーー;)
大変お騒がせしました。

補足日時:2004/02/07 13:35
    • good
    • 0

No8の回答の補足


>全体(実際測った値たち)の68%が平均値±標準偏差のなかにが収まり、

無限個の中からいくらかずつとりだした平均値は、その都度ずれるものの、その平均値たちの68%は、平均値±標準誤差、のなかに収まる。

で正しいと思います。


ただ、専門用語の、母集団、抽出、サンプル(標本)などを使われて、書き込まれた方が、認識のずれが生じにくくなるので、答えやすくなります。
 統計は、何か具体的な問題がないと、勉強しにくい分野だと思います。ご質問の姿勢には好感がもてるのですが、統計学の入門書をもう一度ごらんになるのが一番です。

 私の場合は、教科書どおりやってみて、次は教科書なしにトライして分からなくなり、また教科書を見て、の繰り返しでした。

 ただ、標準偏差については、どの本にも書いてあると想います。標準誤差については、ほとんどありません。しかし、標準偏差がご理解できようになれば、標準誤差については、「サンプル」の部分を「サンプルの平均値」と頭の中で読みかえれば、それでOKです。

この回答への補足

確かに専門用語を使うと、専門家同士の話のやり取り
で、認識のずれが生じにくいのはいえてますが・・・

専門家じゃない僕自身、用語すらあいまいなものですから・・・・すみません。

僕の頭のなかでは

母集団=無限個のデータ

  で

抽出?≒サンプル?

なものですから、用語を使って話が出来なかったんです・・・
そのせいで、逆に皆様にわかりにくい話になってしまたかもしれません

上の3つについて説明していただけたら幸いです。
本当に素人ですみません。
でも、皆様のお力添えでとても助かりました。

補足日時:2004/02/07 13:23
    • good
    • 1
この回答へのお礼

サンプル=無限個(母集団)のなかからいくつか取り出した(抽出した)値たち

でよろしいでしょうか

お礼日時:2004/02/07 13:41

ゴメンナサイ。

またまた訂正です。
「その平均値たちの68%は、平均値±標準誤差、のなかに収まる。」
ここで使われている用語「標準誤差」が,
毎回 (標本の)平均値たちを求めるときに使われたデータの個数の平方根で (母集団の)標準偏差を割ったもの,
を意味するのだとすると,
すなわち,
標準偏差÷√(標本データの個数)
を,ここでいう「標準誤差」だとすれば,

そのとおりです!

かなり,「その平均値たち」は,平均値に近いところに分布していることになります。
    • good
    • 0

NO.7&8 再登場です。


あらたなご質問が
「無限個の中からいくらかずつとりだした平均値は、その都度ずれるものの、その平均値たちの68%は、平均値±標準誤差、のなかに収まる。のか?」
ということだとすると,違います。
No.10回答さんの答えでよいです。
すなわち,
「無限のデータたちから有限個のデータたちを取り出して,その平均値を計算する」という操作を何回か繰り返すと,そのいくつかの平均値たちは,もとの(無限のデータの真の)平均値にきわめて近いところに分布することになります。
    • good
    • 0

またまた補足します。



#7さんの回答が気になったのですが、

おそらくsasaallyさんの新たな疑問の2つめは、
「測定した有限個のものの平均値は、無限個全てを調べたときの真の平均値とは異なるものであって、真の平均値が、「有限個のものの平均値±なんちゃら」の中に入っている確率は?」
ということなんですよね?

これは、68%という怪しい確率なんかではなくて、ものすごく高い確率になります。
しかも、測定した「有限個」のデータの数によって、変わってきます。
(測定した個数が多ければ多いほど、真の平均値が、測定平均値±なんちゃら の範囲にある確率は上がります。)
    • good
    • 0

#5です。

再び。

>実際に測定した値たちの平均値±標準誤差、に値たちの約68%が収まる。

「標準誤差」を「標準偏差」に読み替えると、正しいです。
「標準誤差」って「標準偏差」と同じだったんでしたっけ・・・?


>実際に測定しきれないほどの、無限個の平均値は、
>平均値±標準偏差、内に95%の確率であるという解釈は
>違ってるのですか?

あー、これですね。そんなのも確か見たような・・・。
これは結構難しいです。たしか確率統計だか工業(QC)関係の文献に書いてたような気がします。
その文献が手元にないんで、すぐお答えできません・・・
    • good
    • 0

あ!ゴメンナサイ 書き間違いに気づきました。


訂正です。
誤:(残りの約38%はその範囲外にあります)
正:(残りのデータ(すなわちもとのデータの約32%)はその範囲外にあります)

この回答への補足

みなんさん、つきあってくれて感謝します。

全体(実際測った値たち)の68%が平均値±標準偏差のなかにが収まり、

無限個の中からいくらかずつとりだした平均値は、その都度ずれるものの、その平均値たちの68%は、平均値±標準誤差、のなかに収まる。

ということですか。

補足日時:2004/02/04 14:17
    • good
    • 0

>実際に測定しきれないほどの、無限個の平均値は、


平均値±標準偏差、内に95%の確率であるという解釈は違ってるのですか?
→違っています。(キッパリ)
無限個のデータがあったとして,もしその平均値と標準偏差がわかったとします。(どのようにして分かったのでしょうね?)
その場合も,無限個のデータの約68%は平均値±標準偏差のなかに入ります。(残りの約38%はその範囲外にあります)


・もとの質問の次の問について:
>平均値±標準偏差は何を表しているのかよくわかりません
→「標準偏差」というものが,たくさんあるデータのバラツキを表すのに理論的に都合がよいので,多くの理論的議論のなかで用いられます。
で,『「標準偏差」って,もとのデータとどういう関係にあるの?』 という問に対する答えの一つが
「平均値±標準偏差 という範囲の中に,もとデータの約68%が入る という関係があるよ」
というものです。
「その関係について,もうちょっと多く教えて!」という要求に対する答えとして,
「平均値±2×標準偏差の範囲には,もとのデータの約95%が入っちゃうんだよ」とか
「平均値±3×標準偏差 の範囲には,もとのデータの約99.7%が入っちゃうんだよ」などという答えがあるのです。
「さらにもっと知りたい」という物好きのひとのために,
「標準偏差±0.6745×標準偏差 の範囲内に,もとデータの約50%が入るんだよ」
「標準偏差±1.6449×標準偏差 の範囲内に,もとデータの約90%が入るんだよ」
などと,(理論のはなしですから)いくらでも詳しくその関係を述べることができます。
※ 別に「平均値±標準偏差」だけを特別扱いしなくてもいいのです。d(^_^.)
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q平均年齢の表記方法(統計学的に)

ある母集団の平均年齢を表すときに
たとえば 69±XXX歳 と表記されていることがあります。
この「XXX」の計算方法を教えていただきたいのですが。
統計学的には基礎の基礎で馬鹿な質問と思いますがお願いします。

例えば次の10人の平均年齢±XXX(それぞれ5,13,60,46,35,30,40,10,70,65歳)の求め方を具体的な数式で教えてください。
簡単に計算できるソフトがあればお願いします。

Aベストアンサー

>1)標準偏差と標準誤差のどちらを使うのでしょうか?
どちらを使うのかは、趣味のレベルです。標準偏差は、データのバラツキを、標準誤差は平均値のバラツキを表しています。外国の論文では、表塾誤差を良く見かけますが、バラツキを少なく見せ掛けているような印象を受けます。個人的な偏見かもしれませんが。

>2)NO.2の方の回答では「xxx」=(最大値または最小値)-平均値を使う場合があるとなっておりますが、学会やプレゼンで使う場合どちらが一般的なのでしょうか。
 学会や論文では、標準偏差または標準誤差が一般的ではないでしょうか。最大値や最小値は、母集団から懸け離れた数値の可能性があるからでしょう。例えば、10、15、20、1000のような場合、1000は、偶然の可能性が否定できません。

Q標準偏差に「通常の範囲」はありますか?(初心者の質問です)

現在、仕事で必要のため大変困っています。

大量のデータ(物件の見積金額)のばらつきを出すために「STDEVP」関数を用いて「標準偏差」を出しました。
この標準偏差というのは、よくある「山のようなグラフ」(すみません、名前がわかりません)の平均からどれだけ離れているか・・・ということをみるものでよかったでしょうか?

また、この標準偏差に「通常の範囲」というのはありますか?たとえば「マイナス」にはならないとか100以上の数値はない・・・など

そしてこのデータを「山のようなグラフ」にして見た目にすぐにわかるようにしたいのですが、どのようにしたら良いですか?

くだらないご質問だとはお思いでしょうが、なんとかお力を貸してください。

Aベストアンサー

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差に関係するようなものは使えます。正規分布以外の分布は沢山あります。むしろ正規分布が特殊でしょう。
>この標準偏差に「通常の範囲」というのはありますか
プラス値であることだけです。値について、1より小とかの原理的範囲はありません。公式から判ります。データが2個しかないと仮定して、仮定で平均を決め、平均+α、平均-αのαの値を大きくすればいくらでも「分散」値は大きくなることで判ります。
>そしてこのデータを「山のようなグラフ」にして
現実データの現実分布の形によるのです。無理に山のような形に出来るものでもなく、して良いものでもありません。
現実の分布の形が「まずありき」であって、現実をモデル
分布に強引に当てはめては、本末顛倒です。
経験的に理論的に正規分布をするはずのものが、そうなっていない時には、QC活動でおなじみの、何か外因的作用(機械の故障)や何かの要因が加わっていると、疑うわけです。試験成績であれば、あるクラスではその出題関連単元を教え、他のクラスでは教えなかったとか、カンニングが行われたのではないか、問題があまりにも易しすぎたのではないかなど。
パチンコの例の解説がありました。
http://www.yi-web.com/~ps/java/kakuritu_syoho11.htm
http://www.yi-web.com/~ps/
小生はダメですが、この方面に興味があれば理解のキッカケが掴めるかも。

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差...続きを読む

Q標準偏差について詳しい方お願いします

お世話になります。
標準偏差は平均からのばらつき・・とききますが、「標準偏差が大きい」「小さい」という、その目安がわかりません。

たとえば、50人の集団で平均年齢30歳、標準偏差1.2だったらどうでしょうか?

また、平均年齢が同じぐらいでも、標準偏差が1.0と10.0と違う2つの集団についていろんなデータを比べると、何か問題がありますか?

どちらかでもいいので、わかるかたがいましたらおねがいいたします。

Aベストアンサー

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率では10~50歳になります)ということです。

逆に、例えばテストの点などを考えますと、同じ60点でも平均65点、
標準偏差5、の場合と平均70点、標準偏差10の場合では、どれだけ
違うか直接には比較出来ません。これらを「平均50、標準偏差10」
に換算して比較するのが「偏差値」の考え方です。
(上記の場合、どちらも同じ偏差値40になります)

ということで標準偏差は、ばらつきの度合いを平均値と同時にチェック
する時に使う値です。標準偏差の違う集団を直接に比較するかどうかは
その母集団の性質によって違いますよ。

参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Q標準偏差と標準誤差

標準偏差と標準誤差のちがいってなんですか?
両方とも正規分布(N、σ2/n)のσ2/nの正の平方根をとったものではないのですか?

Aベストアンサー

ある実験(実験1 とします)でn 個のデータ x1, x2, …, xn を集めたとします。
するとその n 個のデータから平均値 m1 と標準偏差 sd1 が得られます(実験1 のデータから計算したという意味で添字 1 を付けます)。

さて、通常は n 個のデータを集めて実験は終了し、データの分析となるわけですが、仮に同じ実験をもっと繰り返したと“想像”してみましょう。それらを実験2、実験3、…とします。そうすると通常は実験で得られる測定値というのは様々な誤差を伴いますので、条件を同じにしたとしてもそれぞれの実験で得られる n 個のデータは毎回同じ組み合わせにはならず、従ってそれぞれの実験データから得られる平均値と標準偏差も異なったものになります(これが X が確率変数と呼ばれる所以です)。

実験を z 回繰り返したとすれば、対応して z 個の平均値 m1, m2, …, mz と z 個の標準偏差 sd1, sd2, …, sdz が得られる事になります。とりあえずこの z 個の平均値について考えると、これらをデータとして「平均値の平均値」と「平均値の標準偏差」を求めることができます。“想像”でのことですから、実験は∞回繰り返してみることができて、そのときの「平均値の標準偏差」を統計学では「平均値の標準誤差」と言います。

このときもしも、元のデータ x1, x2, …, xn がそれぞれ独立に平均μ、標準偏差σの分布(必ずしも正規分布でなくてもよい)に従っているとすると、「平均値の平均値」はμ、「平均値の標準偏差」即ち「平均値の標準誤差」は σ/ √n になることが分かっています。

同様に「標準偏差の標準偏差」も考えらますし、一般的には平均値や標準偏差を含む、いわゆる統計量というものには全て上記のような考え方で「○○という統計量の標準偏差」があります。こうしたものを通常の意味でのデータの標準偏差と区別して「○○の標準誤差」と呼びます。標準偏差というのがデータのばらつきの大きさを示す指標であるのに対し、○○という統計量についての標準誤差が小さければ、その統計量は何度実験をしてもある特定の値に近い値をとりやすいということですから、標準誤差は推定精度を測る目安になります。この意味上の違いを区別するためにも呼び方を変えているのだと思います。

ある実験(実験1 とします)でn 個のデータ x1, x2, …, xn を集めたとします。
するとその n 個のデータから平均値 m1 と標準偏差 sd1 が得られます(実験1 のデータから計算したという意味で添字 1 を付けます)。

さて、通常は n 個のデータを集めて実験は終了し、データの分析となるわけですが、仮に同じ実験をもっと繰り返したと“想像”してみましょう。それらを実験2、実験3、…とします。そうすると通常は実験で得られる測定値というのは様々な誤差を伴いますので、条件を同じにしたとしてもそれぞれの実...続きを読む

Q測定したデータの誤差を計算する方法

集めたデータのばらつきを求めるときに使う計算法として、標準偏差がありますが、「誤差=平均値±標準偏差」と考えていいのでしょうか?
ほかに標準誤差というのがあるようなのですが、説明を読んでも何を意味している誤差なのか理解できません。
ちなみに、データは以下の通りです。

データ数:60
最高値:39.00
最低値:11.00
平均値:22.56
標準偏差:5.261
標準誤差:0.679(5.261/√60)
標準偏差を誤差と考えると22.56±5.261で、総データの70.0%が含まれます。
標準誤差を誤差と考えると22.56±0.679で、総データの10.0%が含まれます。

回答よろしくお願いします。

Aベストアンサー

ここで言う標準誤差は,平均値の確度を表す指標です.
(私自身は標準誤差という名称は初めてですが...)
なので母集団の平均の推定値は算出した平均値±α*標準誤差
(αは推定値の信頼度によって変化します.詳しくは
統計の教科書のt-分布のあたりをご覧下さい)

あと質問者さんは誤差を求めたいようですが,誤差の定義は
誤差=測定値-真値
であり,一般に真値は分からないので誤差は分からないことになります.
また何の誤差をお知りになりたいのかも不明です.上のデータが何をあらわしてるのかは不明ですが,
同一のものを60回測定した結果であれば,母集団の平均の推定値がほぼ真値を表しますので,誤差は,ほぼ標準偏差と考えることができるように思います.
一方60個の別のものを測定したとすれば,母集団の平均の推定値は母集団の平均値であり,標準偏差は60個のものの分布を表していることとなり,誤差という話はあまり出てきません.(無理に言えば,製造の誤差と言えなくもありませんが)

Qカイ2乗検定って何??;;

タイトルのとおりですが…大学で統計の基礎な授業を一般教養で受けています。だけど知らない&説明のない言葉がいっぱぃで、全くついていけません(>_<))
「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、有意水準1%としてカイ2乗検定をして判断する、という問題があるのですが、カイ2乗検定自体、授業でちらっと言葉は使ったものの、計算の仕方、使い方の説明等はなく、まったく手がつかずにいます;;ネットでも調べてみましたが、どう使っていいのかまでは分かりませんでした。
知識の無い私でもわかるようなものがあれば教えて下さいっっ!お願いします。

Aベストアンサー

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布とは,二乗値に関する確率分布と考えることができるのですが,この辺もさらりと流して下さい.

例を使って説明します.今,道行く人にA,B,C,Dの四枚のカードの中から好きなもの一枚を選んでもらうとしましょう(ただし,選んでもらうだけで,あげるわけではありません.単にどのカードを選択仕方の情報を得るだけです).一人一枚だけの条件で,160人にカードを選んでもらいました.
さて,ここで考えてみて下さい.4枚のカードには大きな違いはなく,どれを選んでもかまわない.でたらめに選ぶとなれば,どのカードも1/4で,同じ確率で,選ばれるはずですよね? ならば,160人データならば,Aは何枚ほど選ばれる「はず」でしょうか? 同様に,B,C,Dは何枚選ばれる「はず」でしょうか?
……当然,A=B=C=D=40枚の「はず」ですよね? この40枚という数値はでたらめに(無作為に)選ばれたとしたらどんな数値になるかの【理論値】を意味します.

さて,上記はあくまでも理論値であり,実際のデータは異なる可能性があります.というよりはむしろ違っているのがふつうでしょう.そのような実際に観測された数値を【観測値】と呼びます.
仮に理論値と観測値が以下のようになったとします.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40

当然のように観測値と理論値にズレが生じています.しかし現実と理論が異なるのはある意味当然なのですからぴったり一致することなどありえません.そこで,「ある程度一致しているか(ズレは許容範囲か)」を問題にすることになります.しかし,「ある程度」といわれても一体どのぐらいであれば「ある程度」と言えるのでしょうか? なかなか判断が難しいではないですか?
確かに判断が難しいです.そこで,この判断のために統計学の力を借りて判断するわけで,更に言えばこのような目的(理論値と観測値のズレが許容範囲かどうか)を検討するときに使われるデータ解析法がχ2検定なのです.

        A    B    C    D
(1)観測値   72   23   16   49
(2)理論値   40   40   40   40
(3)ズレ    +32   -17   -14   + 9
(4)ズレ二乗 1024   289   196   81
(5)(4)÷(2) 25.6  7.225  4.9  2.025

 χ2=25.6+7.225+4.9+2.025=49.25

計算過程をさらりと書いていますが,早い話が観測値と理論値のズレの大きさはいくらになるのか,を求めることになります.最終的には「49.25」というズレ値が算出されました.

さて,この「49.25」というズレ値が許容範囲かどうかの判定をするのですが,ここで,χ2分布という確率分布を使うことになります.詳細は統計学教科書を参考してもらうとして,χ2分布を使うと,○○というズレ値が(ある条件では)どのぐらい珍しいことなのか,という「珍しさの確率」を教えてくれます.
かりに「有意水準1%=1%よりも小さい確率で発生することはすごく珍しいと考える(許容範囲と考えられない)」とすれば,「珍しさ確率」が1%以内であれば「許容範囲ではない」と判断します.

以上,長々と書きました.今までの説明を読めばわかるように,χ2検定とはある理論値を想定した時,実際の観測値がその理論値とほぼ一致しているかどうかを調べるための統計解析法のことです.

χ2検定では,理論値をどのように設定するかは分析者の自由です.その設定の仕方で,χ2検定は「適合度の検定」や「独立性の検定」など異なる名称が付与されますが,本質は同じなのです.

質問者さんの場合は

> 「人が一番選ばなさそうな数字」を何度か投票した結果があって、その数字は無作為に選ばれてるかどうか、

これを理論値としてうまく設定することが鍵となるでしょう.

こんにちは.χ2(カイ二乗)検定を厳密に理解するには,数学的素養を持っている状態できっちりと統計学を学習する必要があるのですが,統計データを解析するための手段として統計学を「使う」のであれば,多少の原理を知っておけばよいでしょう.
以下初学者向けにかなり乱暴な説明をしています.正確な理解をしたければ,後で統計学の教科書などで独学して下さい.

χ2検定とは,χ2分布という確率分布を使ったデータ解析法と考えてもらう……のが一番なのですが,多分χ2分布って何? と思われるでしょう.χ2分布...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q標準偏差の1.5SD

標準偏差について初心者向けの本で勉強したばかりの者です。

1SDが68%、2SDは95%、3SDは99%の範囲が含まれるということがわかりました。

そこでお尋ねしたいのですが
(1)4SDは100%なのでしょうか?
(2)1.5SDは何%なのでしょうか?(子供の成長の度合いなどで1.5SDという表記が見られます。)

68%と95%の間だから80%位かなあと勝手に想像したりしていますが・・・。
詳しい方ご教授のほどよろしくお願いいたします。

Aベストアンサー

 標準正規分布の範囲は、標準正規分布表から求めます。

http://www.koka.ac.jp/morigiwa/sjs/standard_normal_distribution.htm

 例えば、1SDのときは、リンク先の表でz=1.0となる数値を2倍にして求めます。


 また、もしエクセルがつかえるようでしたら、次の関数で求めることもできます。

  =NORMSDIST(A1)*2-1  (A1セルに求めたいzの値を入力する)

 これを使うと次のような結果になります。

  1.0SD: 68.3%
  1.5SD: 86.6%
  2.0SD: 95.4%
  2.5SD: 98.8%
  3.0SD: 99.7%
  3.5SD:100.0%

  


人気Q&Aランキング