【先着1,000名様!】1,000円分をプレゼント!

aとbの合成標準偏差をしたいときに以下の説明がされたのですが計算方法がわかりません。


aの標準偏差をσa、bの標準偏差をσbとして、aの比率をA、
bの比率をB(要するにA:Bの比率で組み合わせ)として合成すると
合成標準偏差は、以下の計算と言われました。

合成標準偏差=σa^2A^2+σb^2B^2+2×相関係数×σaσb×A×B

a標準偏差9.5% b標準偏差4.5% aとbの相関係数は0.31とした場合どうなりますか?
上記の計算式がわからりませんのでできれば結果のほかに計算式わかりやすく説明してください。

このQ&Aに関連する最新のQ&A

A 回答 (5件)

> 2×0.51×0.25× 0.31×9.5×5.5+ ・・・・であってますよね?


あってます。
    • good
    • 3

> aの比率51%bの比率25%c9%の比率d8%の比率eの比率7%とした時


> σ^2 = (0.51)^2 σa^2 + (0.25)^2σb^2 + (0.09)^2σc^2 + (0.08)^2σ> d^2 + (0.07)^2σe^2 になると思います。
> 次の式の部分の比率のところの数値がわかりません。

2×0.51×0.25× rab σaσb + 2×0.51×0.09× rac σaσc + 2×0.51×0.08× rad σaσd + 2×0.51×0.07× rae σaσe + 2×0.25×0.09× rbc σbσc + 2×0.25×0.08× rbd σbσd + 2×0.25×0.07× rbe σbσe + 2×0.09×0.08× rcd σcσd + 2×0.09×0.07× rce σcσe + 2×0.08×0.07× rde σdσe

です。
rabσaσbの項にはaとbの比をかけ、・・・・となります。
    • good
    • 0
この回答へのお礼

お礼のお返事が遅くなりまして申し訳ありません。
この度はご丁寧に教えて下さって有難うございました。
もっともなぜこういう式になるのかといのは理解できておりませんが(苦笑)

念の為に確認致しますが
a標準偏差9.5b標準偏差5.5として相関が0.31とした場合
2×0.51×0.25× rab σaσb +は以下の数値を入力しました。
2×0.51×0.25× 0.31×9.5×5.5+ ・・・・であってますよね?
違ってたら恐れ入ります訂正お願い致します。

お礼日時:2007/09/17 23:54

> a標準偏差9.5% b標準偏差4.5% c標準偏差6% d標準偏差4.5% e標準偏差4.5%があったとして合成偏差を出すにはどうすればいいのでしょうか?


> 各々の比率は0.25ずつです。相関は aに対してbは 0.31、aに対してcは0.4815 aに対してdは0.4844です。

えっと・・・
各々の比率が0.25ですか?5変数ですので、0.2かなと思いますけど。

各々の比率が0.2の場合に合成した分散は、
σ^2 = (0.2)^2 σa^2 + (0.2)^2σb^2 + (0.2)^2σc^2 + (0.2)^2σd^2 + (0.2)^2σe^2 + 2(0.2)^2 rab σaσb + 2(0.2)^2 rac σaσc + 2(0.2)^2 rad σaσd + 2(0.2)^2 rae σaσe + 2(0.2)^2 rbc σbσc + 2(0.2)^2 rbd σbσd + 2(0.2)^2 rbe σbσe + 2(0.2)^2 rcd σcσd + 2(0.2)^2 rce σcσe + 2(0.2)^2 rde σdσe
各々の比率が0.25の場合は、0.2の代わりに0.25としてください。
この式に、σa =9.5、σb=4.5、σc=6、σd=4.5、σe=4.5と、rab=0.31、rac=0.4815、rad=0.4844を代入します。質問には、aとeの相関、bとc,d,eの相関、cとd,eの相関、dとeの相関の記述がありませんので、rae,rbc,rbd,rbe,rcd,rce,rdeの値が分かりません。これらが無相関であればrae,rbc,rbd,rbe,rcd,rce,rdeはすべてゼロとして計算します。
    • good
    • 0
この回答へのお礼

kumipapaさん
ご丁寧に教えて頂き有難うございました。
お陰様で計算することができ、感謝しております。
最後に比率の入力だけ教えた下さい。
aの比率51%bの比率25%c9%の比率d8%の比率eの比率7%とした時

σ^2 = (0.51)^2 σa^2 + (0.25)^2σb^2 + (0.09)^2σc^2 + (0.08)^2σd^2 + (0.07)^2σe^2 になると思います。

次の式の部分の比率のところの数値がわかりません。
2(0.2)^2 rab σaσb + 2(0.2)^2 rac σaσc + 2(0.2)^2 rad σaσd + 2(0.2)^2 rae σaσe + 2(0.2)^2 rbc σbσc + 2(0.2)^2 rbd σbσd + 2(0.2)^2 rbe σbσe + 2(0.2)^2 rcd σcσd + 2(0.2)^2 rce σcσe + 2(0.2)^2 rde σdσe

例えば最初の2(0.2)^2 rab σaσbのところ、これはaとbに対しての計算なのかな?と推測できますがその場合の比率の部分の数字(0.2)はどうすればいいのでしょうか?

お手数ですがよろしくお願い致します。
何度もご親切にご回答下さり有難うございます。

お礼日時:2007/09/16 22:13

標準偏差とか分散ていうのは、普通%は付けないと思いますよ。

その点は、もう一度確認してみてください。

> 応用で複数の合成標準偏差を求めるにはどうすればいいのか
n変数について考える前に、2個の確率変数の和 Z=aX+bYの場合についておさらい。
平均をE[Z]と表すことにすると、Zの分散はE[(Z-E[Z])^2]で与えられます。X,Yの分散をσx,σy、相関係数をrxyとしてこれを展開すると、
σz^2 = E[(Z-E[Z])^2]
= E[(aX+bY-E(aX+bY))^2]
= E[(aX-aE[X]+bY-bE[Y])^2]  (∵ E[aX+bY]=E[aX]+E[bY]=aE[X]+bE[Y])
= E[a^2(X-E[X])^2 + b^2(Y-E[Y])^2 + 2ab(X-E[X])(Y-E[Y]) ]
= a^2 σx^2 + b^2 σy^2 + 2ab Cov(X,Y)
= a^2 σx^2 + b^2 σy^2 + 2ab rxy σx σy (∵ rxy = Cov(X,Y)/σx σy)
です。式の途中に出てくるCov(X,Y)(=E[(X-E[X])(Y-E[Y])])はXとYの共分散、rxyはXとYの相関係数です。これが質問者が示された2つの確率変数の和の分散の式です。
確率変数がもっと増えても全く同じように求める事ができます。
n個の確率変数X1,X2,X3・・・,Xnをa1,a2,a3,・・・,anの係数をかけて加算した確率変数をZとすれば、その分散は、
σz^2 =E[(Z-E[Z])^2]
=E[(a1X1+a2X2+a3X3+・・・+anXn - E[a1X1+a2X2+a3X3+・・・+anXn])^2]
=E[((a1X1-a1E[X1])+(a2X2-a2E[X2])+・・・+(anXn-anE[Xn]))^2]
=Σ(i=1,n) ai^2E[(Xi-E[Xi])^2)+ΣΣ(i=1,n,j=1,n,i≠j)aiajE[(Xi-E[Xi])(Xj-E[Xj])
=Σ(i=1,n) ai^2σi^2+2ΣΣ(i=1,n, j=i+1,n)Cov(Xi,Xj)
=Σ(i=1,n) ai^2σi^2+2ΣΣ(i=1,n, j=i+1,n)rij σiσj
です。
例として、Z = aX1+bX2+cX3とすると、
σz^2= a^2σ1^2 + b^2σ2^2 + c^2σ3^2 + 2ab r12 σ1σ2 + 2bc r23 σ2σ3 + 2ca r31 σ3σ1
結局、
>(Aσa+Bσb+・・・+Dσd)^2 を展開してできる式で、2ACσaσcのようなところに aとcの相関係数を乗算している
ということになります。
    • good
    • 0
この回答へのお礼

ご丁寧に回答下さり有難うございます。
しかし数式が私には難解なもので理解できません。
できましたら以下例に出しました数値をkumipapa様が提示して頂いた数式に当てはめて書き記してもらえないでしょうか?
正直ちんぷんかんぷんです((苦笑))
a標準偏差9.5% b標準偏差4.5% c標準偏差6% d標準偏差4.5% e標準偏差4.5%があったとして合成偏差を出すにはどうすればいいのでしょうか?
各々の比率は0.25ずつです。相関は aに対してbは 0.31、aに対してcは0.4815 aに対してdは0.4844です。

お手数お掛けいたしますがよろしくお願い申し上げます。

お礼日時:2007/09/16 14:07

まず、合成標準偏差とのことですが、示された式は標準偏差ではなく分散です。


分散=σa^2A^2+σb^2B^2+2×相関係数×σaσb×A×B
標準偏差=√(分散)
です。
この点をまず確認してください。

次に、
> a標準偏差9.5% b標準偏差4.5%
というのが残念ながら意味不明です。
そもそも標準偏差は%で表される数値ではありません。
それとも、A=0.095、B=0.045のときにどうなるか?ということでしょうか。じゃあ、残りの86%は何なんだというのも気になりますし、実際の計算にはσaとσbの値も必要です。まあ、それらが分かれば、式に入れて計算するだけですが。

とかにかく、「a標準偏差9.5% b標準偏差4.5%」では、問題になっていませんので回答(計算)することができません。

問題をもう一度きちんと示してください。
また、分からない点がどこにあるのかもう少し明確にしてください。
それとも、標準偏差(分散)の式が分からないってことですか?
    • good
    • 1
この回答へのお礼

不備な質問に対してご返答有難うございました。

仰せのとおり標準偏差=√(分散)から最後に√をつけないと標準偏差出ないですね。

上記の式は比率は50%と50%として
(0.5×9.5)^2+(0.5×4.5)^2+2×(0.5×9.5)(0.5×4.5)×(0.31)=約34.25という計算ができました。
ご指摘の通り標準偏差=√(分散)
ですので、√をつけると5.85% となりました。

応用で複数の合成標準偏差を求めるにはどうすればいいのかお判りでしたら教えて下さい。
a標準偏差9.5% b標準偏差4.5% c標準偏差6% d標準偏差4.5% e標準偏差4.5%があったとして合成偏差を出すにはどうすればいいのでしょうか?
各々の比率は0.25ずつです。相関は aに対してbは 0.31、aに対してcは0.4815 aに対してdは0.4844です。

3つ以上の統計分布を相関係数を考慮して取り扱う一般式はないので、
おそらくは、(Aσa+Bσb+・・・+Dσd)^2 を展開してできる式で、2ACσaσcのようなところに aとcの相関係数を乗算しているということだそうです。こちらご理解できましたらわかりやすい数式教えてもらえるとうれしいです。

お礼日時:2007/09/16 10:01

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q2つの正規分布を合成したらどうなるのでしょうか?

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

もしμ3=μ1+μ2,σ3=σ1+σ2のように平均も分散も和で考えてよいのなら

f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}

が答えだと思っているのですが、それとは別のやり方で



f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。

しかし、僕の数学の知識ではこれができなくて困っています。ガウス積分の公式を使ったりしなければいけないのではないかとも考えいるのですが行き詰っています。

アドバイスよろしくお願いいたします。

現在大学の研究の過程で統計学を学ぶ必要がでてきました。僕自身は統計学に詳しくはないので知識のある方の回答は非常に助かります。
どうかご教授よろしくおねがいします。


平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが



例えば互いに独立で

国語の平均点、分散を(μ1,σ1)としての正規分布f(国語)
数学の平均点、分散を(μ2,σ2)としての正規分布f(数学)

とした時の国語と数学の合計得点の分布f(国語+数学)はどのように表せばよいのでしょうか?

...続きを読む

Aベストアンサー

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z の平均と「分散」をμ3, (σ3)^2 とすると・・・

μ3 = μ1 + μ2
は、X, Y がどのような分布であっても(X, Y が異なる分布であっても)成立しますし、X, Y が互いに独立であるか否かに関わらず成立します。
また、X, Y が互いに独立であれば(それらの分布によらず)、
(σ3)^2 = (σ1)^2 + (σ2)^2
が成立します。(このとき Z = X + Y の「標準偏差」σ3 は、σ3 = √( (σ1)^2 + (σ2)^2 ) )

> f(国語+数学)=1/((√2π)σ3) exp-{((x-μ3)^2)/2σ3^2}
> が答えだと思っているのですが
X, Y が互いに独立な確率変数であり、共に正規分布に従うならば、X + Y もまた正規分布に従うという事実は確かにありますが、これは正規分布の「再生性」と呼ばれる特別な性質であることを理解していなければなりません。その点、大丈夫ですか?

> それとは別のやり方で
> f(国語)=1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}と
> f(数学)=1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}をたたみこみ積分すれば答えがでるのではないかと考えています。
上述したように、正規分布の再生性を示す必要があるならば、畳み込み積分でそれを示すのが一法なのであって、何も「別のやり方」ではありません。
案ずるより計算するが易しです。式の整理が面倒なだけで、特別な知識は不要です。
f(x) = 1/((√2π)σ1) exp-{((x-μ1)^2)/2σ1^2}
g(x) = 1/((√2π)σ2) exp-{((x-μ2)^2)/2σ2^2}
h(x) = ∫f(t) g(x - t) dt
  = 1/(2πσ1 σ2) ∫exp{ - (t - μ1)^2 / (2σ1^2) - (x - t - μ2)^2 / (2σ2^2) } dt
  epx( ) の指数部を t で平方完成して
  = 1/(2πσ1 σ2) ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2)) - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } dt
  = 1/(2πσ1 σ2) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) } ∫exp{ - (t - 何ちゃら )^2 / (2σ1^2 σ2^2 / (σ1^2 + σ2^2))} dt
  = 1/√(2π(σ1^2 + σ2^2)) exp{ - (x - μ1 - μ2)^2 / 2 (σ1^2 + σ^2) }
  (∵ ∫ exp ( - (t - A)^2 / 2B^2 ) dt = √(2π) B )
μ3 = μ1 + μ2, σ3^2 = σ1^2 + σ2^2 とおけば
h(x) = 1/(√(2π) σ3) exp( - (x - μ3)^2 / 2 σ3^2 )
途中、「何ちゃら」の部分は省略してますので、興味があれば追っかけてみてください。

なお、本件は確率論において、ごくごく基本的な事項です。
もし、これから確率統計を使って研究をされるのならば、このような件を簡単に質問して済ませるのは危うい感じがします。ちゃんと書籍を読まれ、その上で質問されるのが宜しいでしょう。

> 平均μ、分散σで表される正規分布はf(x)=1/((√2π)σ) exp-{((x-μ)^2)/2σ^2}で表されますが
一般的には分散をσ^2と表し、標準偏差はその平方根でσと表します。
質問者さんが示された確率密度関数は、平均 μ、分散 「σ^2 」の正規分布のものです。分散と標準偏差の扱いをもう少しきちんとしましょう。

> μ3=μ1+μ2, σ3=σ1+σ2のように平均も分散も和で考えてよいのなら
2つの確率変数 X, Y があり、それぞれの平均と「分散」がμ1, (σ1)^2, μ2, (σ2)^2 であるとします。確率変数 Z を Z = X + Y で定め、Z ...続きを読む

Q標準偏差同士の計算はどうやるのですか?

例えば、
(6±0.2)÷(3±0.1)=
を計算すると、
答えが、5.8/3から16.2/2.9となるとおもうのですが。
もっとふくざつな四則計算になると歯が立ちません。

このような計算を簡潔に解ける方法はあるのでしょうか?

また、Mathematicaで解くことは出来ますか?

Aベストアンサー

±をどういう意味だと思うかによって、話が違います。

[1] ご質問は「標準偏差同士の計算」となっていますから、±の後ろにある数値は標準偏差のお積もりでしょうかね。だとすると、
> (6±0.2)÷(3±0.1)=
> を計算すると、
> 答えが、5.8/3から16.2/2.9となる
 そうとは限らないです。たとえば分子と分母がそれぞれ正規分布に従う場合を考えると、分子も分母も(僅かな確率ですが)平均値からうんとかけ離れた値を取りうる。だから、取りうる値の範囲(最大・最小)は幾らでも大きくなります。じゃあ割り算した結果の(範囲ではなくて)標準偏差は幾らか、ということが気になる訳ですが、それは分子がどんな分布に従っているか、分母がどんな分布に従っているか、分子と分母が相関を持つかどうか、また、分母が0以下になる確率が0かどうかでも話が違ってきます。だから、標準偏差だけでは情報不足で答が出ません。

[2] しかし (ご質問のタイトルとは違って)もし±の後ろにある数値が範囲を表している(つまり、6±0.2なら最大6.2, 最小5.8という意味)ならば、
「6-0.2≦x≦6+0.2, 3-0.1≦y≦3+0.1のとき、x ÷ y の範囲を求める」
という形の問題だと考えれば、答の範囲が決められます。もっと複雑な演算でも同じことですね。

[3] ところで、もし±の後ろにある数値が、有限の桁数で数値計算をする際に生じる誤差の見積もりを表している(つまり、6±0.2なら0.2程度の誤差が含まれているという意味)なら、もうちょっと別のアプローチもあります。
 もちろん、±の後ろに付いているのが範囲を表していると思えば上記[2]の話と同じことですけれども、そのやり方ではあまりに悲観的すぎる。計算を繰り返して行くと、±の後ろの部分がどんどん大きくなってしまう。
 でも実際には、計算のたびに生じる誤差同士が互いに打ち消し合う効果があるために、答の誤差はそんなには大きくならない。この事を考慮した実用的な誤差の見積もり方として、「精度保証付き数値計算」と呼ばれる工学理論があります。

±をどういう意味だと思うかによって、話が違います。

[1] ご質問は「標準偏差同士の計算」となっていますから、±の後ろにある数値は標準偏差のお積もりでしょうかね。だとすると、
> (6±0.2)÷(3±0.1)=
> を計算すると、
> 答えが、5.8/3から16.2/2.9となる
 そうとは限らないです。たとえば分子と分母がそれぞれ正規分布に従う場合を考えると、分子も分母も(僅かな確率ですが)平均値からうんとかけ離れた値を取りうる。だから、取りうる値の範囲(最大・最小)は幾らでも大きくなります。じゃあ割...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q±4σに入る確率について教えてください

ウィキペディアの検索より、
確率変数XがN( μ, σ2)に従う時、平均 μ からのずれがσ以下の範囲にXが含まれる確率は68.26%、2σ以下だと95.44%、さらに3σだと99.74%となる。
と分かりました。

そこで
4σ、


の場合確率はどうなるか教えてください。
よろしくお願い致します。

Aベストアンサー

Excel で NORMDIST を使い、平均 50、標準偏差 10 (いわゆる偏差値)で計算してみましたら、次のようになりました。

 σ 0.682689492137086
2σ 0.954499736103641
3σ 0.997300203936740
4σ 0.999936657516326
5σ 0.999999426696856
6σ 0.999999998026825
7σ 0.999999999997440
8σ 0.999999999999999
9σ 1.000000000000000

Excelの関数の精度がどの程度のものか分かりませんが、9σで100%になりました。

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Q統計学のP検定とt検定について教えてください。

よく本を読んでいると出てきますが、なんだかよくわかりません。
HP等を使って検索してるのですが、これだ!という回答は得ることができず、いつも途中でオヤスミモードに突入してしまいます。
如何せん頭の活動がトロイ私にとって、計算式を出されてしまうと即効熟睡モードに入りますのでわかりやすく教えてください。
よろしくお願いいたします。

Aベストアンサー

大学院で研究をする際に道具として統計学を使っている者です.

>質問:統計学のP検定とt検定について教えてください.

P検定……? あまり聞き覚えがない検定名ですが,できましたら正式名称あるいはどのような場合に使用される検定か具体例を示して下さい.とりあえず「t検定」について説明します.

t検定とは正式な定義はともかくとして「t分布を利用した有意性検定」と考えていただくとよいでしょう.……ただしこの説明で分かる人はある程度統計学を勉強した人であって,統計学初心者の人にとっては意味不明かもしれません.
抽象的に考えると分かりづらいので,実際にt検定がどのように使われているかを
具体例を使って説明します.

使用例:男性と女性との体重に差があるか?

  ─────────────────────────────
   女性体重  51 48 51 52 45  平均値: 49.4
  ─────────────────────────────
   男性体重  60 58 58 63 70  平均値: 61.8
  ─────────────────────────────

 上の例では「女性群」「男性群」の体重データ,そしてその平均値が載っています.とある女性5人,とある男性5人に対して体重測定を行ったとします.
 質問その1です.「【この】データにおいて,女性と男性とでは体重の平均値に差があるといえますか?」
 
  男性体重-女性体重=61.8-49.4=12.4

 もし平均値に差がないのであれば「差=0」になるはずですが,「12.4≠0」であり,すなわち,男性と女性の体重には差があると断言できます.
 当たり前すぎて何を言っているんだろう,と思われたかもしれません.

 では質問その2です.「【このデータに限らず一般的に】,女性と男性とでは体重の平均値に差があるといえますか? データから【推測せよ】」
 さあどうでしょう? 「ん.どっかの本で男性の方が体重が重いと書いてあったかな?」といった,データ以外の情報を使わないでください.質問1との違いを区別していない人は「そんなのこのデータで男性>女性になっているから,当然,そうだろ?」と主張してしまいますが,これは誤りです.
 一般的に女性と男性の体重差に違いがあるかどうかを本当に調べるのであれば,この世の中の男性と女性全ての体重データを収集しなければなりません.さらには,そのデータはあくまでも「現在」であって,過去や未来のデータではないので,あらゆる時間のデータも収集する必要があります.……そんなのは絶対無理です!
 そのために,取れる範囲の人数のデータを使うしかありません.そこから「推測」するしかないのです.しかし,あくまでも推測でしかなく,そしてその推測が間違っている可能性もあります.この場合では,例えば「(全体としては本当は差がないのだけど)たまたま体重が軽い女性ばかり選んでしまった.たまたま体重が重い体重の男性を選んでしまった」という可能性もあります.
 このようなことを考えると,データの平均値から【即座に】結論を述べることはできません.これはt検定だけではなく,P検定?,あるいは統計学で使われている「検定」の基本的な考え方です.

 t検定に話を戻しますが,この特定データから推測して「一般的に,男性・女性体重に差があるか」を調べることができます.ちなみに上記データをt検定を行うと……

  t値=-4.79 自由度=8 確率=0.001372037

 という結果になります.この結果の読み取り方もこつがいるのですが,解読の流れとしては,

「【偶然で本当は差がないとして】,今回のような「12.4」という差があるということが発生する確率は「0.14」%である」→
「偶然で起きる確率が1%未満である」→
「それって滅茶苦茶珍しくない?」→
「それは偶然じゃないだろう? というよりは前提の『偶然で本当は差がない』というのがそもそも間違い何じゃないの?」→
「ということは,本当は差があるんだ!」

となって「やっぱり,一般レベルでも男性と女性の体重平均値には差がある」吐血論を下すことができるのです.

このように「t検定」の代表的な使用法としては「二つの平均値に本当に差があるか?」の検討があります(これを使えば,ある数値が本当に「0」よりも大きな数値であるか,なども検討できますが,今回は省略します).

大学院で研究をする際に道具として統計学を使っている者です.

>質問:統計学のP検定とt検定について教えてください.

P検定……? あまり聞き覚えがない検定名ですが,できましたら正式名称あるいはどのような場合に使用される検定か具体例を示して下さい.とりあえず「t検定」について説明します.

t検定とは正式な定義はともかくとして「t分布を利用した有意性検定」と考えていただくとよいでしょう.……ただしこの説明で分かる人はある程度統計学を勉強した人であって,統計学初心者の人にとっ...続きを読む

Q誤差の計算について

 誤差の計算で困っています。
A,B,C,Dについて、それぞれ10個の実験データがあります。
 最終的には、C*D/(A-B) といった式の誤差を求めたいと思うのですが、この式の正規方程式を立てることはできるのでしょうか?よろしくお願いします。

Aベストアンサー

「正規方程式」というものは勉強したことがないです。
ですけど、C*D/(A-B)の誤差を求める方法はわかります。
A,B,C,Dそれぞれの誤差の求め方はご存知だと思うので、書きません。

さて、一般に、
誤差のあるもの同士の足し算(引き算)をすると、和(差)の誤差は√Σ(各誤差値の2乗)。(ただし誤差は割合表示でなくて値そのもの表示)
例えば、3±1と4±2の和は7±√5

誤差のあるもの同士の掛け算(割り算)をすると、積(商)の誤差は、Σ(各誤差)、すなわち誤差の単純加算です。(ただし誤差は割合表示)
例えば、100±20(=100±20%)を10±3(=10±30%)で割り算した商は、10±50%(=10±5)

ですから、
A→A±a
B→B±b
C→C±c
D→D±d
と置けば、
ご質問のC*D/(A-B)の誤差は、
c/C + d/D + (√(a^2+b^2))/(A-B)
になります。
(これに100を掛ければ%になります。)

Q3σについて教えてください(基本的なこと)

文系出身なので、基本的なことが分かっていませんが、仕事の資料で出てきたので教えてください。
3σとは標準偏差で、規格を外れる確率が99.7%? など、少し調べたのですが、まだまだ分かりません。

例)
取引先の製品の、あるパラメータ(寸法)のロット内ばらつきを示す資料に、N=20個 規格6.0mm±0.3mm AVE.5.983で、3σ0.021というものありました。
※数値はうろ覚えです・・・
質問)
AVE.は20個測定した平均が、5.983mmだったということはもちろん分かるのですが、3σの0.021とはどう理解すればよいのでしょうか。
6.00mmに対して、0.021mm以上ずれる確率が0.03%と思えばよいのでしょうか?それともAVE.に対して0.021mmずれる確率???
そもそも0.021の単位は?(mm?)
はてなばかりですみません。初歩的な質問ですみませんが、例を挙げて分かりやすく教えていただけたら幸いです。

Aベストアンサー

> N=20個 規格6.0mm±0.3mm AVE.5.983で、3σ0.021

を普通に読むと、規格6.0mm(±0.3mm) で 20 個製造して検査したところ、平均値は 5.983 で標準偏差は 0.007mm (=0.021÷3) であった、という意味になります。標準偏差の単位は、標準偏差は「平均からのずれ」の平均ですから、平均値と同じになります。

この工程での真の平均値をμとしますと、今回の 20 個製造して得られた平均値 X=5.983 の標準偏差は 0.00157 (=0.007/√20) 程になります。これは、μは 99.7 %の確率で 5.983±(3×0.00157) にあることを示しています。
ここから、真の平均μが 6mm であったならば 0.3% 以下しか起こらないような珍しいことが起こっているという意味で「統計的に有意な差がある」といい、真の平均は6mmではない、と結論づけることが出来ます。

それから、製品一つ一つについては、平均 5.983±0.021 に入らない確率は 0.03 %になります。
何れにせよ、99.7%は規格の範囲内に入っていることになりますね。

> N=20個 規格6.0mm±0.3mm AVE.5.983で、3σ0.021

を普通に読むと、規格6.0mm(±0.3mm) で 20 個製造して検査したところ、平均値は 5.983 で標準偏差は 0.007mm (=0.021÷3) であった、という意味になります。標準偏差の単位は、標準偏差は「平均からのずれ」の平均ですから、平均値と同じになります。

この工程での真の平均値をμとしますと、今回の 20 個製造して得られた平均値 X=5.983 の標準偏差は 0.00157 (=0.007/√20) 程になります。これは、μは 99.7 %の確率で 5.983±(3×0.00157) にあることを示...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング