dポイントプレゼントキャンペーン実施中!

母分散の区間推定で求めた結果のルートをとり、標準偏差にすることは、してもよいことなのでしょうか?

カイ二乗分布は分散の分布であって、標準偏差の分布ではないと思うので気になっています。

数学的厳密性においてはルートをとることは間違いだが、実用上問題ないとか、

よく実社会においてはルートをとり標準偏差に戻すことはよく行われており、この程度のリスクがあるなど、

何らかのコメントを頂ければと思います。



関連する内容でもうひとつの質問ですが、

母集団からサンプルを抽出し、標準偏差を求めることを何度も繰り返すと、

標準偏差の平均値と、標準偏差の分布が見えてくると思います。

それをもって標準偏差の区間推定としてはいけないのでしょうか?

数学が全然できず、優しい回答頂ければ幸いです。

A 回答 (25件中11~20件)

#14です。



パーセンタイルに関する逸話です。

実は、非正規分布の工程能力指数を計算する式が最新のISOに示されたのですが、±3σの幅で割るのではなく、下側0.135パーセンタイルと上側0.135パーセンタイルの値の幅で割っています。

https://www.jmp.com/support/help/ja/15.2/index.s …

日本の委員は、理論上の値との違いを理由に反対したそうですが、実用上問題ないということで押し切られ国際基準になったそうです。

私は実務者ですので、「ISO法による」あるいは「分位点法による」と最初に断りを入れておけば、構わないと感じています。

でもCpkに至っては、分布の中心の正しい点推定値ではなく50パーセンタイル値(中央値)を使うのですから、これまでの議論から分かるように理屈上は滅茶苦茶です。
    • good
    • 0

#13です。

訂正箇所があります。

パーセンタイル値について補足します。

ご質問者様が最初に考えられた、不偏分散の区間推定値の平方根を取るという方法は、実はパーセンタイル値になるのです。

なぜなら、一般的に不偏分散の区間推定はカイ2乗分布の下側2.5%点と上側2.5%点を使います。その平方根ですから、まさにパーセンタイル値なのです。

でも、この区間の値は、本来正しいと考えられる「t分布」の左右対称の値にはならず、下側に偏った区間になりますね。#8の図のとおりです。

↓(訂正)

でも、この区間の値の平方根は、本来正しいと考えられる標準偏差の分布「t分布」の左右対称の値にはならず、下側に偏った区間になりますね。#8の図のとおりです。


本当におっちょこちょいで、すみません。
    • good
    • 0

#12です。



パーセンタイル値について補足します。

ご質問者様が最初に考えられた、不偏分散の区間推定値の平方根を取るという方法は、実はパーセンタイル値になるのです。

なぜなら、一般的に不偏分散の区間推定はカイ2乗分布の下側2.5%点と上側2.5%点を使います。その平方根ですから、まさにパーセンタイル値なのです。

でも、この区間の値は、本来正しいと考えられる「t分布」の左右対称の値にはならず、下側に偏った区間になりますね。#8の図のとおりです。

これをもって、母集団の標準偏差の区間推定とするのはダメかどうかの問題なのです。左右対称じゃないから理論上はダメなのですが、最初からパーセンタイル値だと断っておけば、実用上は良しとしよう、ということなのです。

こう書いてみると、意外と簡単な話だと思われませんか?
    • good
    • 0

#11です。


コメント、ありがとうございます。
長文になってしまいました。申し訳ありません。

一貫してダメだと言っているのは、点推定値の周りに±1.96σ相当の範囲で理論分布に沿って信頼区間が設けられるという議論は不偏分散では正しいのですが、標準偏差は平方根を取った時点で点推定値が偏るのでダメだということです。点推定値が偏れば±1.96σ相当の点も動きますから、その方法はダメなのです。
点推定値が偏らないような対策(サンプル数(観測回数)を増やすとか不偏化定数を用いるとか)が講じられていれば、OKだということです。
あるいは、点推定値±1.96σ相当という「分布の中心を基準」とするのではない方法としてパーセンタイルを提案しています。

◆質問の1つ目は、母分散の区間推定結果を標準偏差に置き換えてもよいか?です。

No.1さんのコメントを引用させて頂くと、【A < σ^2 < B】→【√A < σ < √B】です。
答えは、→だめ。平方根を取ると値が偏る。
しかし、母分散の区間推定を1万回行い、【A < σ^2 < B】を1万個求め、【Aの1万個の平均 < σ^2の 1万個の平均< Bの1万個の平均】とし、最後に標準偏差した【√A < σ < √B】ならOK。あってますか?

◇はい。合っています。平方根を取った時点で分布の中心(点推定値)が偏り、期待される値(出現確率の真ん中の値)が変わります。不偏分散の平方根は母標準偏差の点推定値にはなりません。
ですが、その観測を無数に行うと(サンプル数を増やすと)一方に偏っていた出現頻度の低いすそ野の値もたびたび出現しますので、均せば近似できるのです。この証明は中心極限定理を用いれば良いです。また区間の端の値も、分散の平均、分散の分散が正しく推定できることによって、正しい推定値を与えます。


◆2つ目は、母集団から何度も標準偏差求め、標準偏差の分布を作り、それをもって母標準偏差の区間推定としてよいか?です。
答えは、→だめ。標準偏差は偏っているので偏った分布ができる(No.8から理解)
あってますか?

はい、合っています。
この操作はサンプル数を増やしてもだめです。偏った値を集めているだけです。


◆では同様の方法で分散なら?→だめ。区間推定の真ん中の値、つまり何度も得た分散の平均値は標準偏差にしても偏よらない(←No.8から理解)が、両端の値は繰り返しを均した期待値ではない為偏ると理解しました。

◇前半はいいえです。分散の区間推定はカイ2乗分布という理論分布に沿って行いますので、分散の区間推定は行っても良いです。
後半ははいです。その区間の端の値は、理論分布上はそうだと言っても、確率密度曲線の偏りを伴っていますからすそ野の区間の端の値も観測の度に動いています。ですからこの平方根を取って標準偏差の区間の端の値だということはできません。観測を繰り返して、分散の分散が均された値となれば、区間の端の値も安定します。中心極限定理です。その場合はOKです。
なお、非心t分布を使って理論分布に沿って推定するのは構いません。


◆実はよく分からないのがパーセンタイルの話です。
1万回分散を求めて、上・下側2.5%地点の分散は1万個中の1個の値なので平方根をとって標準偏差にしたら偏るのではないかなと。なぜパーセンタイルの方法を提案されているのかが理解できていません。

◇この方法は、これまでの「点推定値±1.96σ相当の範囲」という「分布の中心を基準」にするのではない方法として提案しています。大きさ順にソートしたときに、例えば10番目の値は、全て正値なら平方根を取っても10番目という順位は変わりません。ですから、たとえ「平方根を取って分布の中心が偏って区間の端の値が動いても」、何番目~何番目という全体の95%を占める範囲は変わらないのです。もちろん、理論分布上の区間の端の値とは一致しません。しかし実用的にはこれで良しとする場合が多いです。


◆統計学につきものの『サンプルサイズが大きいとき』とは?

製造業では5超が1つの目安なんですね。
自信をもって大きいとは言えないのかもしれないが、不偏化定数が必要ない程度に大きいわけですね。

◇はい。n=5というのは日科技連の管理図の欄外に、そこまでしか書いてないという理由かもしれません。先生によってはn=10まではNGという方もいらっしゃいます。昔の統計のテキストの事例は、なぜかn=11というのが多かったです(自由度10だから割り算しやすいという理由かと思っていましたが、そのくらいだと偏りが小さいという理由かもしれませんね)


◆No.11のご回答で、他の質問者の方が質問されていた、ブートストラップ予測区間には再標本化の繰り返しに伴う平均値のばらつきがあるのでそれを減じないといけない。という所なんですが、
信頼区間は平均値のばらつきが。
予測区間は平均値のばらつきと、データのばらつきが乗るという理解です。
なので、ブートストラップ予測区間から平均値のばらつきを減じるというのがよくわからず・・・。

◇確かに全変動は2乗和の分解を行えば色々な成分に分解できます。ですが、ブートストラップ予測区間は、分解した成分を各々再現するのではなく、全変動そのものを再現します。そのとき、平均値変動成分が「繰り返しという操作」のせいでダブルカウントになってしまうのです。
    • good
    • 0
この回答へのお礼

No.12~16のご回答者様

いつも有難うございます!

理解できないことがあり、No.12の途中で立ち止まってしまって、全て読めていない状況です。

沢山のご回答を頂いている中、本当に恐縮です。
申し訳ありませんがまずは下記質問をさせてください。

私の1つ目の質問はNo.12のご回答にて、『合っています』のお言葉を頂いたので解決かなと思っています。

分からなかったのは、2つ目の質問の“分散の場合“です。

>前半はいいえです。と仰られた所ですが、確認させてください、

前半とは下記文章を指していますか?

>→だめ。区間推定の真ん中の値、つまり何度も得た分散の平均値は標準偏差にしても偏よらない(←No.8から理解)

これがいいえだと、区間推定の真ん中の値、つまり何度も得た分散の平均値は標準偏差にしても偏よる になるんでしょうか。

私の返答がいつも遅くなってしまうことも、申し訳なく思っています。

何卒宜しくお願い致します。

お礼日時:2021/08/30 13:31

#10です。



たびたびすみません。

#10の「1万個の分布の区間の端(1個)を求める操作をさらに1万回やって期待値を求めれば、・・・」

これは、カイ2乗分布から信頼区間の値を決める場合です。これを何度もやってその期待値を求める・・・ということを言っています。

こんな面倒なことをしなくても、実際には、再標本の分散を1万回なり求めるのですから、その2.5パーセンタイルと97.5パーセンタイルの値を信頼区間の代用値とします。
その値の平方根を取れば、標準偏差の2.5パーセンタイルと97.5パーセンタイルになります。

これは#7の最後に既に書いた話です。

あと、分布のパラメータの信頼区間ではなく、データの予測区間ですが、ブートストラップ予測区間には再標本化の繰り返しに伴う平均値のばらつきが分散の加法性で乗ってきますので、それを減じないといけませんね。注意が必要です。
これは、最近、他の質問者の方がご質問されていました。

予測区間については今回のご質問外ですので、余計なお節介でした。

もうひとつ・・・、
標準偏差の信頼区間を理論的に求めたいのであれば、確か「非心t分布」だったと思いますので、それで可能です。t分布ですので自由度に依存します。ここは、多くのテキストは避けて通りますが、ネット上には書いている人がいるかもしれません。
これは、#8の図に示したように母集団の推定値にはなっていませんが、現サンプルが正常か異常かを判断したいときは、偏った「この範囲」にあればOKという判断ができるようになります。もちろん、これも一般的には不偏化定数を使ってなるべく偏らないようにし、母集団と対比して判断します。
    • good
    • 0
この回答へのお礼

No.8~11のご回答者様

いつも有難うございます!

私の最初の投稿では2つ質問を致しました

◆1つ目は、母分散の区間推定結果を標準偏差に置き換えてもよいか?です。

No.1さんのコメントを引用させて頂くと、
【A < σ^2 < B】→【√A < σ < √B】です。

答えは、
→だめ。平方根を取ると値が偏る。


しかし、母分散の区間推定を1万回行い、
【A < σ^2 < B】を1万個求め、【Aの1万個の平均 < σ^2の 1万個の平均< Bの1万個の平均】とし、最後に標準偏差した【√A < σ < √B】ならOK

あってますか?
No.11のご回答の冒頭部を読みこのように理解しました

◆2つ目は、母集団から何度も標準偏差求め、標準偏差の分布を作り、それをもって母標準偏差の区間推定としてよいか?です。

答えは、

→だめ。標準偏差は偏っているので偏った分布ができる(No.8から理解)
あってますか?


では同様の方法で分散なら?

→だめ。区間推定の真ん中の値、つまり何度も得た分散の平均値は標準偏差にしても偏よらない(←No.8から理解)が、両端の値は繰り返しを均した期待値ではない為偏る
と理解しました。

あってるんでしょうか・・実はよく分からないのがパーセンタイルの話です。

1万回分散を求めて、上・下側2.5%地点の分散は1万個中の1個の値なので平方根をとって標準偏差にしたら偏るのではないかなと。

なぜパーセンタイルの方法を提案されているのかが理解できていません。


◆統計学につきものの『サンプルサイズが大きいとき』とは?

製造業では5超が1つの目安なんですね。
自信をもって大きいとは言えないのかもしれないが、不偏化定数が必要ない程度に大きいわけですね。

◆No.11のご回答で

>他の質問者の方が質問されていた

もしかして私かな(回帰分析の予測区間の質問)

>ブートストラップ予測区間には再標本化の繰り返しに伴う平均値のばらつきが・・・・それを減じないといけない。

という所なんですが、

信頼区間は平均値のばらつきが。
予測区間は平均値のばらつきと、データのばらつきが乗るという理解です。

なので、ブートストラップ予測区間から平均値のばらつきを減じるというのがよくわからず・・・

過去のご解説理解できておらず申し訳ないです

お礼日時:2021/08/27 12:49

#8です。


回答を漏らしていました。すみません。

>No.6さんは(区間の端の値を)標準偏差に置き換えてOKと理解しておられ、それに対してNo.7で『補足頂きましたとおりです』のコメントが有るのでで悩んでいます。

すみません。区間の端の値は、繰り返しを均した期待値ではありませんので、NGです。ここは間違っていますね。

なぜなら、#8に書いた事例を用いて説明しますと、不偏分散の期待値は1万個の平均で、これは正しく標準偏差と対応していましたが、区間の端の値は1万個中の1個でしかありません。サンプルサイズ1では正しい推定はできません。

もし、不偏分散の平均値のように、端の値も期待値を求めているのであればOKです。

つまり、1万個の分布の区間の端(1個)を求める操作をさらに1万回やって期待値を求めれば、中心極限定理によってほぼほぼ正しい推定値になります。

この場合は、その期待値の平方根を求めて標準偏差の区間の値だと言っても良いです。

これを応用しているのが、エフロン先生のブートストラップ法です。現有のデータから再標本化によって上記の操作を行い、区間推定を行います。
    • good
    • 0

このことは、お手元に使い慣れたプログラム言語があれば、「1000万回」程度のシミュレーションを行うことによって容易に判明します。



訂正します→1万回
    • good
    • 0

#7です。

コメントありがとうございます。

>つまり母分散の区間推定をしたら、それを標準偏差にせず、分散のまま活用するのが正しい。で合ってますか?

はい。平方根を取った時点で偏りますから、区間推定は分散のままでやって下さい。次のご質問と併せて、最後にグラフで示します。

>サンプルサイズが大きい時というのはどれくらいか。これは難しいですね。

これは、製造業ではn=5までは不偏化定数を使って標準偏差を推定せよ、と社内基準化しているのではないでしょうか。これもグラフで示します。

>平方根を取った時点でNGなのです。とおっしゃられた所と、理解が衝突してしまっています。

何度も繰り返した結果の「平均値=期待値」は、#6さんがご指摘されたようにほぼ正しい値を与えます。中心極限定理です。その期待値の平方根を取って標準偏差にするのは構いません。

このことは、お手元に使い慣れたプログラム言語があれば、1000万回程度のシミュレーションを行うことによって容易に判明します。
私が行った結果を示します。
n=5の小サンプルを標準正規乱数で発生させます。N(0,1^2)に従う乱数です。
この5個のデータの分散を求めることを1万回繰り返します。
そして1万個の分散の平均を取ります。 Rでやったら0.9981666でした。
この平均の平方根は、0.9990829でほぼ1です。正しいです。
この方法であれば標準偏差は正しく求まっています。

ところが!

同様に、小サンプルを標準正規乱数で発生させます。N(0,1^2)に従うはずです。標準偏差は1の周りに分布して欲しいです。
毎回、不偏分散を求めます。ここまでは同じです。
今度は1万個の不偏分散の各々の平方根を取って、標準偏差を求めます。
その1万個の標準偏差の分布とその中央値(ちょうど真ん中の1個の値)はどうなっているか見てみましょう。平均を見ないのは「期待値(均した値)」にしたくないからです。

添付のグラフは上から順に、n=2,3,4,5で、
左側が不偏分散の平方根、右側が不偏化定数を使ったもの(R/d2)です。
大きく偏って分布していることが分かります。
赤い線とヘッドの数字は中央値です。ちょうど50・50%となるデータの位置です。
本来これは(偏りが無ければ)1になるべき値です。分布はこの周りにばらついて欲しいです。

n=2(一番上)は論外ですが、n=5(一番下)であっても、不偏分散の平方根では、正しく標準偏差になっていないことが分かります。中央値でなく「標準偏差の平均値」で比べても差は小さくなれど傾向は同じです。それに対して不偏化定数を使ったものは、n=5であれば、まあまあ近似的に1になっています(赤い線の位置を比べて下さい)。

このように不偏分散の平方根は、小サンプル時は正しい母標準偏差の推定値とはならないのです。ですから、ばらつきの大きさや区間推定(区間の端の値は大量のデータの代表値ではなく1個の値)を行うときは(不偏)分散のまま行うのが好ましいです。
「母分散の区間推定について」の回答画像8
    • good
    • 0

#6様、



丁寧に補足頂き、ありがとうございます。

補足頂きましたとおりです。私が意味を取り違えていたことをお詫びします。

ただ、ご質問者様の「標準偏差の区間推定」につきましては、#6さんが書かれたように、

標準偏差の平均(点推定値)は、不偏分散の期待値の平方根から求めれば、それは正しいですが、標準偏差の標準偏差はそうはいきません。
標準偏差の区間推定を分布のパラメータ(平均と標準偏差)を使って行うことはできません。

パラメータ間の換算は単に平方根を取るという単純なものではないです。

どうしても、範囲を示したい、というのであれば、「パーセンタイル」を使うことを提案します。

例えばサンプルサイズ=5で分散を算出する試行を何度も行い、その結果をソートして、大きい側(上側)から全体の2.5%に相当するサンプルの分散の平方根を使うのです。これを97.5パーセンタイルと言います。同様に下側2.5%パーセンタイルを求めれば、異なる分布形間での対応付けができます。

これを「ブートストラップ信頼区間」といいます。非線形回帰の信頼区間を求めるときの定石です。
    • good
    • 0
この回答へのお礼

No.2,4,5,7のご回答者様

ご回答頂きまして、真に有難うございます。

また、お礼の返信がすぐに出来ず申し訳ありませんでした。

ご回答がたまってしまったことと、投稿文字数の関係で、恐縮ながらNo.2,4,5,7のご回答への返信は、No.7のお礼欄に集約させて頂きたいと思います。

■No.2のご回答に対しまして

>不偏分散 V の平方根 s は厳密には標準偏差 σ の不偏推定量ではありません

我々が普段よく使う、サンプルから求めた標準偏差は(特にサンプルサイズが小さい時は)どうしたって偏っているということで認識あってますでしょうか?

ところで、ここで言う標準偏差sは、分母がn-1のものを指していると思いますが、

分母がnのものは多分もっと偏っているんだと思います。それもまた“不偏性が無い“と言うのでしょうか?


■No.2と4のご回答に対しまして、

>ダメです。区間推定できるのは分散だけです。

> 「サンプル」の分散(不偏分散)を使って、母集団の分散の信頼区間を推定するまではOKですが、
>その推定した母分散の信頼区間の値から標準偏差の信頼区間を算出することはNGです。平方根を取った時点でNGなのです。

つまり母分散の区間推定をしたら、それを標準偏差にせず、分散のまま活用するのが正しい。で合ってますか?

(No.6さんは標準偏差に置き換えてOKと理解しておられ、それに対してNo.7で『補足頂きましたとおりです』のコメントが有るのでで悩んでいます)

■No.4のご回答に対しまして、

サンプルサイズが大きい時というのはどれくらいか。これは難しいですね。

私は製造行ですが、統計学は当たるも八卦当たらぬも八卦みたいな世界でこそ生き生きと使えるのかなと感じています。

■No.5のご回答に対しまして、

>①サンプルの不偏分散の平方根の期待値は偏っていますが、
>②サンプルの不偏分散の期待値(これは正しい推定値です)の平方根は点推定値として正しいです。

①は、No.2のご回答でグラフを使って教えてくれた内容のことですよね?

②は理解できていないところです。

No.5のご回答で、>平方根を取った時点でNGなのです。とおっしゃられた所と、理解が衝突してしまっています。

何卒宜しくお願い致します。

お礼日時:2021/08/25 16:31

No.1&3 です。


kamiyasiro さん、ご丁寧な回答ありがとうございます。

質問者さんのお知りになりたいことが#3 と同じかどうか分かりませんが、
・通常のやり方で「母分散の信頼区間」を推定し、
・それを「元の統計量」と次元を合わせるために「平方根」をとって「標準偏差」の値に置き替える
ことはやっても問題ない、ということでよろしいですね。
(「分散」は元の統計量の「2乗」の次元なので、統計量の次元に合わせるには平方根をとらないといけない)

質問者さんの後半については、
・「サンプル標準偏差」の分布を求めてそれをやるのは間違い(「サンプル標準偏差」は母集団の標準偏差には一致しないので、それで「母標準偏差」を推定することはできない)
・やるなら「サンプル分散から求めた不偏分散」の分布を用いるべし
ということですね?
    • good
    • 0
この回答へのお礼

No.1,3,6のご回答者様

ご回答頂きまして、真に有難うございます。

また、お礼の返信がすぐに出来ず申し訳ありませんでした。

ご回答がたまってしまったことと、投稿文字数の関係で、恐縮ながらNo.1,3,6のご回答への返信は、No.6のお礼欄に集約させて頂きたいと思います。

もう一人のご回答者様のNo.2,4,5,7への返信はNo.7のお礼欄に集約していますのでそちらもご確認いただければと思います

■No.1のご回答に対しまして、

>A < σ^2 < B、となったときに √A < σ < √B、としてよいか、ということですか?

>サンプル分散(あるいは標準偏差)の分布ということですね?

この2つに関して、私の質問意図はその通りでございます。

(2つ目に関して強いて言えば、質問時点では標準偏差の分布のみを念頭に置いておりサンプル分散の分布を描くことは意識していませんでした)

後半のご説明が私には難しかったのですが、こういうことですか?

サンプルサイズnのサンプルはそもそもカイ二乗分布に従う。

それをN個とってきてたとしても前述のカイ二乗分布上にプロットされるだけでありやる必要はない。

認識合ってますでしょうか?

■No.3のご回答に対しまして、

私の最初の質問を改めてしていただいたわけですよね?有難うございます。

■No.6のご回答に対しまして、

ご代弁いただき助かります

>通常のやり方で「母分散の信頼区間」を推定し、それを「元の統計量」と次元を合わせるために「平方根」をとって「標準偏差」の値に置き替えることはやっても問題ない、と

これは違うのではないかなと思っています。
No.4のご回答に、

>その推定した母分散の信頼区間の値から標準偏差の信頼区間を算出することはNGです。平方根を取った時点でNGなのです。
とあるからです。

>・「サンプル標準偏差」の分布を求めてそれをやるのは間違い(「サンプル標準偏差」は母集団の標準偏差には一致しないので、それで「母標準偏差」を推定することはできない)
>・やるなら「サンプル分散から求めた不偏分散」の分布を用いるべし


これは私もそう思いました。

ただし、そこから標準偏差にしてはいけない(分散のまま活用する)ということなのかな?と思っています(・・が混乱中です)

お礼日時:2021/08/25 16:27

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!