プロが教えるわが家の防犯対策術!

標準偏差と変動係数について教えてください。

標準偏差を求めた場合、平均値からどれぐらいばらつくか。が求められると思いますが、
以下の内容の場合の考え方を教えてください。

例 ある商品の製造ばらつき
(例ですので実際にはありえないばらつきとN数で記載しています。また正規分布してる物だとして考えてください)

40cm 50cm 60cm

平均値 : 50cm
標準偏差 : 8.1
3σ : 24.3
変動係数 : 0.162(16.2%)



σ → 68.27%
2σ → 95.45%
3σ → 99.73%

【質問1】
標準偏差のみで考えると、25.7〜74.3cmの中で製造される可能性が99.73%になると思いますが、

変動係数を加味して考えた場合、

σの場合、68.27%の確率で、50cmから±16.2%ぐらいばらつくと推測される。
2σの場合、95.45%の確率で50cmから±32.4%(変動係数×2)ぐらいばらつくと推測される。
3σの場合、99.73%の確率で50cmから±48.6%(変動係数×3)ぐらいばらつくと推測される。

といった解釈でよろしいのでしょうか?

また、違う場合、変動係数を加味した時のばらつきと確率についてご教授ください。
参考URL等あれば合わせて教えて頂けると幸いです。

変動係数と確率の関係性の考え方に自信があまりないので、皆さまのお知恵を拝借させてください。
宜しくお願いします。

A 回答 (1件)

「変動係数」とは、「標準偏差を平均値割ったもの」ですから、「平均値を 1 とした場合の標準偏差の割合(比率)」ということです。


https://bellcurve.jp/statistics/course/5929.html

>標準偏差のみで考えると、25.7〜74.3cmの中で製造される可能性が99.73%になると思いますが、

はい。
 25.7 = 50 - 24.3 = 50 - 3σ
 74.3 = 50 + 24.3 = 50 + 3σ
ということですから。

>σの場合、68.27%の確率で、50cmから±16.2%ぐらいばらつくと推測される。
>2σの場合、95.45%の確率で50cmから±32.4%(変動係数×2)ぐらいばらつくと推測される。
>3σの場合、99.73%の確率で50cmから±48.6%(変動係数×3)ぐらいばらつくと推測される。

そもそもが、書かれている意味が違います。ばらつき自体は3つとも同じですよ。

・製造された製品は、68.27%の確率で、50cm ±16.2%(変動係数×1)の範囲に入る。
・製造された製品は、95.45%の確率で、50cm ±32.4%(変動係数×2)の範囲に入る。
・製造された製品は、99.73%の確率で、50cm ±48.6%(変動係数×3)の範囲に入る。

これは「50cm ±16.2%(変動係数×1)」の部分を
 50cm ±σ
 50cm ± 8.1cm
と書くのと全く同じ意味です。単に「標準偏差の絶対値」で表すか、「平均値に対する比率」で表すかだけの違いで、内容の違いはありません。つまり

・製造された製品は、68.27%の確率で、50cm ± 8.1cm(標準偏差×1)の範囲に入る。
・製造された製品は、95.45%の確率で、50cm ± 16.2cm(標準偏差×2)の範囲に入る。
・製造された製品は、99.73%の確率で、50cm ± 24.3cm(標準偏差×3)の範囲に入る。

と言っているのと同じです。いずれも「ばらつき(標準偏差)は ± 8.1cm (平均値の ±16.2%)」ということです。

正規分布のグラフとその特性を思い出してくださいね。
http://www.stat.go.jp/koukou/howto/process/p4_3_ …
    • good
    • 0
この回答へのお礼

さっそくの回答有難うございます!
標準偏差の絶対値で表すか、平均値に対する比率で表すか、でもやもやが解決しました!
本当にありがとうございます。

これ以上ない丁寧かつ分かりやすい回答をして頂きましたので、ベストアンサーに選ばせて頂きます。
また機会がありましたら、どうぞ宜しくお願いします。

お礼日時:2017/12/11 23:46

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q<統計学> CV(変動係数)について

CV値は
  
  CV=(標準偏差/平均値)

で算出されますよね?

ただばらつきを評価するだけなら、標準偏差でいいと思うのですけど、
平均値で割ることで何が分かるのですか?

教えてください!! お願いします。

Aベストアンサー

平均100で標準偏差(バラツキの目安)が1なら、1%のばらつきの程度です。

これを、平均10000で標準偏差100と並べてみると、数字の大きさからこちらのほうがばらつきが大きいように一瞬思いますが、実はどちらも1%のばらつきなのですね。

そういう桁によらず何%のバラツキなのか、というのを比較把握するには桁を合わせる意味で平均値で割って合わせる(正規化する)ほうが便利なのです。

Q測定値の変動係数について

ある測定機器の定期検査の際に、再現性の確認として1と測定されるべきものを3回繰り返し測定し、基準として変動係数が10%以内という事が定められています。
この場合例えば測定値が 0.96 0.98 0.98 であった場合、また 0.95 0.95 0.96 であった場合は
いずれも合格という判定となっています。  また1.19   0.593 という頭をひねっても出てこないような数字がそえられています。
これはどういうことでしょうか?知識的なことを少しかじってみたのですがよく理解できません。
どなたか分かりやすく説明していただけませんでしょうか

Aベストアンサー

変動係数=標準偏差÷平均値、が公式です。
 0.96 0.98 0.98 であった場合、標準偏差は、0.011547、平均は0.97333ですから、変動係数は、1.186%です。また、0.95 0.95 0.96 なら、同じく0.005774、0.95333ですから、0.605%になり、10%以下なので合格、と判定されます。
 

> また1.19   0.593 という頭をひねっても出てこないような数字がそえられています。
1.19≒1.186、0.593≒0.605。
 私の値は、エクセルで計算させたので、ソフトが違うと、ピ妙な差がでるのかも。
ただし、標準偏差は、ご質問の数字か不偏標準偏差に近いので、不偏標準偏差を使っています。標準偏差と不偏標準偏差は、同一ではなく、どちらが良いのかは、判定できません。ただ、測定値が、サンプリングをした値なら、不偏標準偏差が正解です。

Q標準偏差について詳しい方お願いします

お世話になります。
標準偏差は平均からのばらつき・・とききますが、「標準偏差が大きい」「小さい」という、その目安がわかりません。

たとえば、50人の集団で平均年齢30歳、標準偏差1.2だったらどうでしょうか?

また、平均年齢が同じぐらいでも、標準偏差が1.0と10.0と違う2つの集団についていろんなデータを比べると、何か問題がありますか?

どちらかでもいいので、わかるかたがいましたらおねがいいたします。

Aベストアンサー

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率では10~50歳になります)ということです。

逆に、例えばテストの点などを考えますと、同じ60点でも平均65点、
標準偏差5、の場合と平均70点、標準偏差10の場合では、どれだけ
違うか直接には比較出来ません。これらを「平均50、標準偏差10」
に換算して比較するのが「偏差値」の考え方です。
(上記の場合、どちらも同じ偏差値40になります)

ということで標準偏差は、ばらつきの度合いを平均値と同時にチェック
する時に使う値です。標準偏差の違う集団を直接に比較するかどうかは
その母集団の性質によって違いますよ。

参考URL:http://ja.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%81%8F%E5%B7%AE

とりあえず、「標準偏差」の定義はURLを読んでいただくとして。

標準偏差は「分散」の平方根ですから、その集団の標準偏差が大きい
ということは、その集団のデータのばらつきが大きいということです。

とりあえず、以下の話は母集団が正規分布をするという仮定で行います。

仮に平均年齢が同じ30歳で、標準偏差が1の集団の場合、その集団には
28歳~32歳の人しかいない(95%程度の確率でその中にデータがある)
ということですし、標準偏差が10ならば35歳の人も結構フツーにその
中にいる(同じ確率...続きを読む

Q標準偏差に「通常の範囲」はありますか?(初心者の質問です)

現在、仕事で必要のため大変困っています。

大量のデータ(物件の見積金額)のばらつきを出すために「STDEVP」関数を用いて「標準偏差」を出しました。
この標準偏差というのは、よくある「山のようなグラフ」(すみません、名前がわかりません)の平均からどれだけ離れているか・・・ということをみるものでよかったでしょうか?

また、この標準偏差に「通常の範囲」というのはありますか?たとえば「マイナス」にはならないとか100以上の数値はない・・・など

そしてこのデータを「山のようなグラフ」にして見た目にすぐにわかるようにしたいのですが、どのようにしたら良いですか?

くだらないご質問だとはお思いでしょうが、なんとかお力を貸してください。

Aベストアンサー

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差に関係するようなものは使えます。正規分布以外の分布は沢山あります。むしろ正規分布が特殊でしょう。
>この標準偏差に「通常の範囲」というのはありますか
プラス値であることだけです。値について、1より小とかの原理的範囲はありません。公式から判ります。データが2個しかないと仮定して、仮定で平均を決め、平均+α、平均-αのαの値を大きくすればいくらでも「分散」値は大きくなることで判ります。
>そしてこのデータを「山のようなグラフ」にして
現実データの現実分布の形によるのです。無理に山のような形に出来るものでもなく、して良いものでもありません。
現実の分布の形が「まずありき」であって、現実をモデル
分布に強引に当てはめては、本末顛倒です。
経験的に理論的に正規分布をするはずのものが、そうなっていない時には、QC活動でおなじみの、何か外因的作用(機械の故障)や何かの要因が加わっていると、疑うわけです。試験成績であれば、あるクラスではその出題関連単元を教え、他のクラスでは教えなかったとか、カンニングが行われたのではないか、問題があまりにも易しすぎたのではないかなど。
パチンコの例の解説がありました。
http://www.yi-web.com/~ps/java/kakuritu_syoho11.htm
http://www.yi-web.com/~ps/
小生はダメですが、この方面に興味があれば理解のキッカケが掴めるかも。

>よくある「山のようなグラフ」
●正規分布グラフのことでしょう。
●標準偏差は、1峰の山型分布に限らず、平均を出せるデータがあれば(また平均はどんな場合でも出せますから)
(データ-平均)の2乗を全てのデータに亘って加えた
(Σ)もの(分散)から計算するからです。その平方根(+の方を採る約束)です。(不偏分散に付いては略)
●正規分布かそれに近い分布でないと、「もの」(推論)が言えないだけです。(例えば「平均値 ± 1 標準偏差の範囲内には全データの 68.27% が含まれる」など)
誤差...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q変動係数は正規分布を前提?

変動係数の式にはSDが出てくることから、やはりその適用には正規分布を前提としているのでしょうか?

仮にそうだとしたら、正規分布以外の分布形の場合、変動係数に類似した指標はあるのでしょうか?

どなたか教えてください。

Aベストアンサー

#1です。

> 不適当であると書かれています。

それは使い方によります。例えば非対称な分布で平均±SDのような書き方をしてもたいして意味を成さないのは明らかですし、先の回答にも書きましたが正規分布に従っているとは言えないような分布で平均±SDの範囲に約68%のデータが存在するような意味で用いれば、それは明らかに誤りです。要は正規分布を仮定した場合に成り立つことを仮定できない場合に適用するのが不適当なのです。

また、裾の重い分布で極端に大きいまたは小さい値が出やすい場合には、平均値やSDは中央値や四分位偏差に比べてその影響を受けやすくなりますがが、それが正常なデータ(つまり測定ミスとか記録ミス、他のデータと異質である等の理由で外れ値とはみなせない)である限り平均が位置の指標、SDがばらつきの指標としての意味を持つことに変わりはありません。データの数値が大きいところと小さいところで単純にそのばらつきの大きさだけを比較してよいのか?というところから出てきている変動係数も同様です。

誤解の無いように補足しておくと、これはどんな場合でも平均とSD(あるいは変動係数)だけを参照すれば済むと申している訳ではありません。必要に応じて中央値など他の指標も参照する必要はありますし、これらは何れか一つという択一的なものではなく、互いに不足している情報を補う関係のものであるとご理解ください。正規分布を仮定できないからといって平均とSD(あるいは変動係数)が使えなくなる訳ではないということです。

#1です。

> 不適当であると書かれています。

それは使い方によります。例えば非対称な分布で平均±SDのような書き方をしてもたいして意味を成さないのは明らかですし、先の回答にも書きましたが正規分布に従っているとは言えないような分布で平均±SDの範囲に約68%のデータが存在するような意味で用いれば、それは明らかに誤りです。要は正規分布を仮定した場合に成り立つことを仮定できない場合に適用するのが不適当なのです。

また、裾の重い分布で極端に大きいまたは小さい値が出やすい場合には、平均値...続きを読む

Q±4σに入る確率について教えてください

ウィキペディアの検索より、
確率変数XがN( μ, σ2)に従う時、平均 μ からのずれがσ以下の範囲にXが含まれる確率は68.26%、2σ以下だと95.44%、さらに3σだと99.74%となる。
と分かりました。

そこで
4σ、


の場合確率はどうなるか教えてください。
よろしくお願い致します。

Aベストアンサー

Excel で NORMDIST を使い、平均 50、標準偏差 10 (いわゆる偏差値)で計算してみましたら、次のようになりました。

 σ 0.682689492137086
2σ 0.954499736103641
3σ 0.997300203936740
4σ 0.999936657516326
5σ 0.999999426696856
6σ 0.999999998026825
7σ 0.999999999997440
8σ 0.999999999999999
9σ 1.000000000000000

Excelの関数の精度がどの程度のものか分かりませんが、9σで100%になりました。

Qバラツキの大きさを統計学的に検定できるのでしょうか?

バラツキの大きさを統計学的に検定できるのでしょうか?

具体的には、ある製品がバラツキが大きいのが課題で、改良品を検討しています。
現行品A(n=30)と比較して改良品B(n=30)が、バラツキが小さいことを統計学的に説明したいと思っています。

いまは、それぞれの製品のCV値の大きさの比較だけしていますが、『CV値が下がった、上がった』だけでは、『どれくらい下がればよいのか??』『このCV値の差は意味があるのか??』という話になりました。

どなたか、ご存知の方、教えてください。

ちなみに、私は統計学に疎いので、基本的な質問でしたら、ごめんなさい。。

Aベストアンサー

検定をするときに、平均の有意差を検定するのがt検定、分散(バラツキ)の有意差を検定するのかF検定。バラツキが改良されたか否かは、F検定をしてください。

 バラツキは、平均値からのズレですから、平均に差があれば、バラツキだけ取り上げても、改良したことにはならないのでは。
 この場合は、t検定では有意差が認められず(「差が無い」はどんな統計学でも言えない)、F検定で有意差あり、が欲しい結論でしょう。

>『どれくらい下がればよいのか??』『このCV値の差は意味があるのか??』
これは、統計学の守備範囲ではありません。現場で判断、決定する課題です。
 毎日1秒くるう時計なら、普通の人は問題にしないでしょうが、天文学の人には大問題です。宇宙船なら、地球に戻れないかも。

Q変動係数(SD/平均)を有意差検定してよいか?

統計の初心者です。
例えば、次のような場合

減塩指導後の平均血圧の変化
(減塩指導で平均血圧が下がるだけでなく、血圧の変動も
小さくなったといいたいのですが)


(指導前と指導後で7日連続、朝の血圧を測定)
指導前7日間のデータ(mean±SD)、指導後7日間のデータ
から変動係数を算出

被験者A 変動係数 6%(指導前の7日間:平均血圧(mmHg)のSD/mean)
→4%(指導後の7日間)、
被験者B 変動係数 8%→6%
被験者C、D、E、、、

指導前の変動係数(A, B, C, D, E, F/ 6%, 8%, ,,,)→指導後 (4%, 6%,,,,)

指導前と指導後の変動係数をpaired-Tで有意差検定するのは
認められるでしょうか。

統計に詳しい方、ご教示をお願いします。

Aベストアンサー

No.1&2です。

「変動」であっても、それが「同じ計測量を複数回計測したときのバラツキ(ランダム誤差)」なのか、血圧の「最大値、最小値の幅」とか「血圧の24時間の変動範囲」というようなそれ自体に「意味のある値」なのかによって、取り扱いが変わるでしょう、というのがNo.1&2の趣旨です。

 No.2に書かれた「大の幅(一番高い日と低い日の差)で評価する方法」というのも、「一番高い日と低い日の差」という量が、その裏にあるメカニズム・要因を的確に表すパラメータであれば、その変化を評価する意味はあると思います。
 ただ、そこに示された例では、
  患者A (10mmHg (指導前の7日間では最大の日100mmHg、最低の日 90mmHg)
  →指導後8mmHg (最大の日98mmHg, 最低の日 90mmHg)
は、そもそもの計測値が
  指導前の7日間では最大の日 100mmHg ± 10mmHg
           最低の日 90mmHg ± 9mmHg
  指導後の最大の日98mmHg ± 9.8mmHg
      最低の日 90mmHg ± 9mmHg
という誤差を持っているのであれば、指導前後に「差がある」とは言えないでしょう。「誤差範囲内」ですから。

 これが、例えば「変動幅」というパラメータに着目して、
  指導前の変動幅:10mmHg ± 1mmHg
  指導後の変動幅:8mmHg ± 0.8mmHg
というように言えれば、「1σ程度の差はある」「ある程度の差はある」といえるでしょう。(一般に、検定で「信頼度95%で有意差あり」と判定するには、1.96σ以上の差が必要ですが)

No.1&2です。

「変動」であっても、それが「同じ計測量を複数回計測したときのバラツキ(ランダム誤差)」なのか、血圧の「最大値、最小値の幅」とか「血圧の24時間の変動範囲」というようなそれ自体に「意味のある値」なのかによって、取り扱いが変わるでしょう、というのがNo.1&2の趣旨です。

 No.2に書かれた「大の幅(一番高い日と低い日の差)で評価する方法」というのも、「一番高い日と低い日の差」という量が、その裏にあるメカニズム・要因を的確に表すパラメータであれば、その変化を評価する意味は...続きを読む


人気Q&Aランキング