人に聞けない痔の悩み、これでスッキリ >>

統計学の標準偏差について教えてください。

データのバラツキを表すために標準偏差の±1σ、±2σ、±3σの範囲内や範囲外という表現があることを理解しています。

プラス側については+3σ以上とか+3σ超過と言うことができます。
マイナス側は-3σ以下や-3σ未満と表現するものだと思っていました。

ところが知人から、「標準偏差は値の揺らぎの幅を表しているのだから、標準偏差で表す場合はマイナス側の範囲外も-3σ以上、-3σ超過というのが正しい」と言われました。

「±3σ以上」、「±3σ超過」と表現するようにプラス側もマイナス側も「以上、超過」になるとのことです。

つまり、データのバラツキを標準偏差で表現した時、マイナス範囲の表現は「以下、未満」ではなく
「以上、超過」で表現するべきで、数学的な不等式の表現が逆転するというのです。

マイナス範囲の表現がこのようになるということを習った記憶がありません。
本当なのでしょうか???

どなたか詳しい方がいらしたら、是非ともマイナス範囲の表現について教えていただきたいです。
よろしくお願い致します。

このQ&Aに関連する最新のQ&A

A 回答 (5件)

「平均値」を中心に、プラス側に3σ以上離れている、マイナス側に3σ以上離れている、という意味での「±3σ」なので、「以上」で問題ないと思います。

「上」「下」というのに違和感があれば、「±3σ超過」でもよいと思いますが、逆に「マイナスの超過って?」という疑問も生じます。
 まあ、あまり深く考えず、イメージ的に、普通の間隔で「±3σ以上」でよいのではないでしょうか。

 「平均値 - 3σ ~ 平均値 + 3σ」という「変数の範囲」で表わせば、「±3σ」の範囲から逸脱する部分は、「(平均値 - 3σ)以下」、「(平均値 + 3σ)以上」という言い方になりますから、「-3σ」側の逸脱範囲は「以下」と呼ぶことになります。
 質問者さんの「違和感」は、こちらの呼び方との類似感覚のせいではないでしょうか。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

とても分かりやすい回答を頂けました。
「-3σ以上」だけでは違和感がありますが、「(平均値から)-3σ以上(離れている)」と説明されると分かりやすいですね。

私は「変数の範囲」で考えていたのに対して、知人は「標準偏差の範囲」を基準に話をしていたのだと気が付きました。
回答者さんのおかげですっきりしました!!!

お礼日時:2016/03/14 21:59

友達の間違い。


3σ自体の大きさを評価するときは、以上の表現となりますが、平均値-3σの値を外れる場合は、当然、以下または未満です。
これ常識
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

「3σ自体の大きさを評価するときは、以上」、「平均値-3σの値を外れる場合は、以下」
簡潔で適切なご回答を頂くことができました。

私と知人では、範囲の話をしているのか数値の大小の話をしているのかで誤解があったようです。
標準偏差の理解を深める良い機会になりました。

ありがとうございます。

お礼日時:2016/03/14 22:56

>標準偏差で表す場合はマイナス側の


>範囲外も-3σ以上、-3σ超過というのが正しい

そういう曖昧で省略した言い方は避けるべきでしょう。
絶対誤解を生みます。

統計学の書籍をいくつか眺めてみましたが、
「範囲」という言葉を使うことが多いようですよ。

±3σの範囲内、±3σの範囲外、±3σの収まる範囲、
±3σの収まる範囲の外、±3σの範囲に収まらない、
±3σの範囲外のマイナス側、±3σの範囲外の下側、

などなど。これなら迷うことはないと思います。

私の調べた範囲では「超過」という表現を使う本は皆無でした。

まあ、堅実な表現か、数式で表現するのが一番かと。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

おっしゃる通りです。
「以上・以下」で表現してしまうと、私と知人のように誤解が生じる可能性がありますね。

私も回答者さんのご意見を頂いてから、統計学の書籍を読み返してみました。
標準偏差の範囲のことを指す場合は「範囲内、範囲外」と表現するようです。
範囲内・範囲外で表現していれば、マイナス側であっても「以上・以下」で誤解を招くことがありません。

とても良い解決策を頂きました。
ありがとうございます。

お礼日時:2016/03/14 22:46

>「標準偏差は値の揺らぎの幅を表しているのだから、標準偏差で表す場合はマイナス側の範囲外も-3σ以上、-3σ超過というのが正しい」と言われました。


日本語の問題だと思いますが
平均値を中心に 3σ以上離れている。と言えば
+側も -側も 以上(或いは 超過)の表現になると思いますが。
-3σ以下と云えば
-3σより平均値に近い方を意味します。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

私は統計学の問題だと思っていたのですが、日本語の曖昧さの問題でもあったようです。
「-3σ以上」とだけ言ってしまうと、多くの方は「(平均値より)-3σ以上(離れている)」と捉えるようです。

ただ、特定の数値があって「平均値-3σ」の値と比較しているケースにおいては、
「-3σ以上」とだけ言ってしまうと、「(平均値)-3σ(の値)以上」と解釈できてしまいます。

私と知人にはこの点で大きな誤解があったようです。
回答者の皆さんのおかげで疑問が解けました。

ありがとうございます。

お礼日時:2016/03/14 22:38

標準偏差だけで議論すえう場合は、偏差は幅の広さを示しているので、-3σ以上、-3σ超過の言い方が正しいです。

0~-3σの幅以上なのが-4σなので・・・。

実生活では、○○が-3σ以下と言う言い方をするのが一般的です。
この場合は、標準偏差が主体では無く○○が主体になるため、「○○の値が平均-3σ以下」と言う意味になりますね。

例えば、低身長の判断に良く使われる成長曲線では
「身長が-2SD以下になったら注意を要する」とか言いますが、主体が身長であり、「身長<=平均-2SD」と言ってる訳で、
「身長が-2SD以上になったら注意を要する」では通じません。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。

確かに主体(主語)が何を指すかによって意味が変わってしまいますね。
○○という数値の話をしているのか、標準偏差の幅の話をしているのかがポイントになりそうです。

とても参考になりました。
ありがとうございます。

お礼日時:2016/03/14 22:29

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q標準偏差バーをグラフに入れた時にマイナスの範囲にエラーバーが達する場合

13人の点数がそれぞれ以下のようにあったとします。
0、0、0、0、1、1、1、2、2、2、3、4、6
平均点 1.7点 標準偏差が1.8
になります。このとき棒グラフの平均値に±1.8の範囲の
エラーバーを追加するとグラフのマイナスの範囲に入り込みます。
点数は0点以下はあり得ないのでマイナスの範囲に入るのは変だと思うのですが、このようなときにどのようにグラフを書けばよいのでしょうか?

Aベストアンサー

例えば、0点から100点の数学のテストについて、平均が50で標準偏差が45とかだとすると、「確率的に」0点以下の人はいるだろうと考えられます。でも実際には平均点が50で標準偏差が45などということは在りえないわけで、かなり部分的なデータしか得られていないということです。

仮にこのようなデータ

  {50, 21, 0, 73, 90, 1, 3}

が得られたときでさえ標準偏差は37.16629ですから、これは母集団から適切にサンプリングできていないと考えるのが妥当です。

だから、今回提示された{0、0、0、0、1、1、1、2、2、2、3、4、6
}というのは、もし正規分布に従っていると仮定するなら、かなり偏ったデータを採取してしまったのだろうといえるわけです。

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q3σ法による計算式

当方、管理や統計学など全く無知ですのでわかりやすく教えて下さい。

仕事で、管理図を作成するにあたり、3σ法で管理限界線(UCL,LCL)を計算せよとの事を言われましたが、理解出来てません。

3σ法の公式とかあるんでしょうか?あったら教えて下さい。あと、3σとは何か、簡単に教えて下さい

Aベストアンサー

まず、3σというのは、σの3倍のことです。
そして、σというのが、「標準偏差」といわれるもので、これはばらつきの大きさを表すものです。

計算方法などは、
http://www.mbanavi.com/school/stat04.htm
最近では、excel で計算してしまうという手もあります。(が、それでは意味がつかみにくいかも)
基本的には、
1)全体の平均をとる
2)個々のデータと平均との差を求める(この大小がばらつきに相当)
3) 2)でとった個々のデータについての差を2乗する(プラス・マイナスの影響をなくすため)
4)それを、(データの数-1)で割る(気持ちとしては、ばらつきの量を平均した感じ・データの数-1で割るのは、「母標準偏差の推定」という考え方があるから)
5) 3)でばらつきを2乗しているので、それをルートで開いて元に戻す

とうことになります。

統計上いくつかの前提があって、例えば、製造工程で普通にものを作った場合、いろいろなばらつきは、それぞれ独立に出ます。
そこで、結果的には、ある一定の平均値付近のものが多くでき、平均値から外れたものは、少しだけどできるという形になる場合が多いのです。
この場合、誤差が本当の意味での「ばらつき」であれば、これは、「正規分布」という分布(つまり、平均値付近が多く、それから離れると少なくなっていくような)をします。

この「正規分布に従う」という前提で、平均値±3σの間には、全体の、99%強 が含まれるというのが、統計的に知られています。
これを以て、3σで管理という事になります。


さて、「管理図」ということですが、いろいろな種類のものがあります。
そこで、普通は、UCL, LCL は、製品自体の規格値(か、それから算出された値)を使うので、直接、3σは出てこない気がするのですが。
考えられるのは、x-s (平均と、標準偏差の管理図)で、標準偏差に対する上限管理値が3σなのかなと。(この場合、下限の管理値はありません。0が理想なので)

まず、3σというのは、σの3倍のことです。
そして、σというのが、「標準偏差」といわれるもので、これはばらつきの大きさを表すものです。

計算方法などは、
http://www.mbanavi.com/school/stat04.htm
最近では、excel で計算してしまうという手もあります。(が、それでは意味がつかみにくいかも)
基本的には、
1)全体の平均をとる
2)個々のデータと平均との差を求める(この大小がばらつきに相当)
3) 2)でとった個々のデータについての差を2乗する(プラス・マイナスの影響をなくすため...続きを読む

Q標準偏差に「通常の範囲」はありますか?(初心者の質問です)

現在、仕事で必要のため大変困っています。

大量のデータ(物件の見積金額)のばらつきを出すために「STDEVP」関数を用いて「標準偏差」を出しました。
この標準偏差というのは、よくある「山のようなグラフ」(すみません、名前がわかりません)の平均からどれだけ離れているか・・・ということをみるものでよかったでしょうか?

また、この標準偏差に「通常の範囲」というのはありますか?たとえば「マイナス」にはならないとか100以上の数値はない・・・など

そしてこのデータを「山のようなグラフ」にして見た目にすぐにわかるようにしたいのですが、どのようにしたら良いですか?

くだらないご質問だとはお思いでしょうが、なんとかお力を貸してください。

Aベストアンサー

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差に関係するようなものは使えます。正規分布以外の分布は沢山あります。むしろ正規分布が特殊でしょう。
>この標準偏差に「通常の範囲」というのはありますか
プラス値であることだけです。値について、1より小とかの原理的範囲はありません。公式から判ります。データが2個しかないと仮定して、仮定で平均を決め、平均+α、平均-αのαの値を大きくすればいくらでも「分散」値は大きくなることで判ります。
>そしてこのデータを「山のようなグラフ」にして
現実データの現実分布の形によるのです。無理に山のような形に出来るものでもなく、して良いものでもありません。
現実の分布の形が「まずありき」であって、現実をモデル
分布に強引に当てはめては、本末顛倒です。
経験的に理論的に正規分布をするはずのものが、そうなっていない時には、QC活動でおなじみの、何か外因的作用(機械の故障)や何かの要因が加わっていると、疑うわけです。試験成績であれば、あるクラスではその出題関連単元を教え、他のクラスでは教えなかったとか、カンニングが行われたのではないか、問題があまりにも易しすぎたのではないかなど。
パチンコの例の解説がありました。
http://www.yi-web.com/~ps/java/kakuritu_syoho11.htm
http://www.yi-web.com/~ps/
小生はダメですが、この方面に興味があれば理解のキッカケが掴めるかも。

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差...続きを読む

Q標準偏差について

先ごろ授業で分散と標準偏差との関係について、分散は標準偏差の2乗だと習いました。
だとすると、逆に考えると分散を標準偏差に戻すときに標準偏差に-が出てきますが、この場合は無視できるのでしょうか。ちょっとしたレポートでこのあたりのことを書かなければいけないのでよろしくお願いします。
できれば、詳しい解説の載ったホームページでも教えていただけるとありがたいです。

Aベストアンサー

標準偏差は、平均からの偏差の絶対値の平均と定義されますから、負の値に意味は無いです。
ある数値の平方根を取ったときに正/負の値があるのとは、別次元の話です。

言い方を変えると、分散の平方根のうち、負の方は、分散の平方根ではあるが、標準偏差ではない、ということです。

Qマイナスを含むデータの平均と分散

例えば,
{-0.0027,0.0005,-0.0006,0.0003,-0.0002,-0.0002,0.0016,-0.0017,-0.0003,-0.0004,-0.0005,-0.0007}
のようなマイナスを含む誤差データがあるとします.
この誤差データの平均と分散を求めたいとしますと,単純に足してデータ数で割っただけだとマイナスでキャンセルされてしまって平均とは呼べないと思います.
そこで平均二乗誤差を使用してデータの平均を求めた場合,分散を計算するときに使用する平均値のデータとしては,平均二乗誤差を使用しても良いのでしょうか?

このようなデータ処理の仕方について,わかりやすい本がありましたらついでに教えていただけると助かります.

Aベストアンサー

 
データの性格によって計算の方法を考えるべきでしょ。
例えば棒の直径を測って、基準の10mmからの差をデーターとした場合。
0.02
-0.01
0.01
0.01
-0.01
こんなデーターの場合は単純に合計し
0.02+-0.01+0.01+0.01+-0.01=0.02、平均は0.02/5=0.004
基準値の10に加算して、5本の棒の直径の平均は10.004mm

子の様にマイナスを含むデーターを単純に平均する時もあります。

 

Qエクセルで正規分布の作り方

色々紹介はされているとは思いますがいまいち作成方法がわかりませんので教えてください。
n=50で得点の正規分布図をエクセルで作成したいのですが具体的にどういう順番で処理すればよいでしょうか?よろしくお願いします。

Aベストアンサー

正規分布の曲線をプロットしたいのでしょうか?

エクセルの関数を使う方法はこちら
http://home.kanto-gakuin.ac.jp/~ahero/excel/func/norm_graph.shtml
曲線の方程式からプロットする方法はこちら
http://oshiete.goo.ne.jp/qa/853670.html

でも、平均値と標準偏差が解らないと描けないですね。
ご質問の意味が、得点と、頻度をプロットしたグラフという事なら、
単に、折れ線グラフだと思います。
具体的なデータ等補足していただかないと、的確な回答は付かないと存じます。

こんなサイトを見つけましたが、なかなか面白そうです。
http://homepage1.nifty.com/gfk/excel.htm
http://homepage1.nifty.com/gfk/average.htm

Q確率と平均値と標準偏差

教えてください。
確率で数値を出した場合に、その確率の値から標準偏差は出せますか?
barを挿入した場合に0%や100%を超える事になったりして、意味のある数値なのか気になりました。

で、標準偏差の値は平均値にそのまま足したり引いたりしたのが範囲となるのですよね?
標準偏差で出た数値の中心を平均値にもってくるのは間違いですよね?(つまり、こうすると標準偏差で出る値の半分が上限、下限となりますが)

Aベストアンサー

他の回答者の方々がおっしゃっているように、標準偏差はデータのばらつきを表すものです。
なんらかの計算をして確率を出しても、数値1個では標準偏差は出せません。
データが複数あって、平均や標準偏差が計算できます。

barはvarの誤りでしょうか。varは一般に分散を表現するキーワードですね。Excelを使っているのでしょうか?
varは(データ - データの平均値)の2乗の和をデータ数で割ったものなので、非常に大きく(データが小数点以下なら小さく)なります。

2乗のデータをそのまま足すことに意味はありません。
長さに面積を足すようなものです。
通常、varのルートを取ったものを平均に足します。
これで同じ次元のデータになります。
これが標準偏差の考え方です。

また、
      平均値±標準偏差(√分散)
はデータの最大値と最小値の範囲を指すものではありません。(通常、範囲といえば最大値と最小値の差になります)
"平均的な存在範囲"とでも表現するのが適切だと思います。

標準偏差で出た数字は範囲ですので
>標準偏差で出た数値の中心を平均値にもってくるのは間違いですよね?
という考えは合っています。
標準偏差という言葉で”平均値+標準偏差”や”平均値ー標準偏差”の値を使っている人やソフトウェアがあると、こういう風に思ってしまうのかもしれません。

(この説明では確率を単に割合として観測されたデータとして解釈しています。確率にはもっと違う意味がありますので、適当に使うと誤解を生みやすい表現になります。)


以上、確率や統計の世界に少しでも興味をもっていただけたらなぁ・・・と期待するharisenbonでした。

他の回答者の方々がおっしゃっているように、標準偏差はデータのばらつきを表すものです。
なんらかの計算をして確率を出しても、数値1個では標準偏差は出せません。
データが複数あって、平均や標準偏差が計算できます。

barはvarの誤りでしょうか。varは一般に分散を表現するキーワードですね。Excelを使っているのでしょうか?
varは(データ - データの平均値)の2乗の和をデータ数で割ったものなので、非常に大きく(データが小数点以下なら小さく)なります。

2乗のデータをそのまま足すことに...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

QWordで、1ページを丸ごと削除するには?

1ページしか必要ないのに、真っ白な2ページ目がその下に表示されてしまった場合、この余分な2ページ目を一括削除(消去)する為に、何かいい方法があるでしょうか?

Aベストアンサー

<表示されてしまった場合>
これはそれなりに理由があるわけで、改ページや改行によって、次のページにまで入力が及んでいる時にそうなります。
特に罫線で表を作成し、ページの下一杯まで罫線を引いたときなどには、よくなる現象です。

さて、メニューの「表示」で段落記号にチェックが入っていないと、改行や改ページなどの入力情報が見えず、白紙のページを全て選択→削除してもそのままということが良くあります。
1 改行マークが白紙のページの先頭に入っていれば、それをBackSpaceで消してやる。
2 罫線を使っている場合は、それでも効果がない場合がありますが、その時は行数を増やしてやる。
などの方法があります。


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング