母分散の区間推定について

解決済

質問者：hecunhehui
質問日時：2021/08/19 20:22
回答数：25件

母分散の区間推定で求めた結果のルートをとり、標準偏差にすることは、してもよいことなのでしょうか？

カイ二乗分布は分散の分布であって、標準偏差の分布ではないと思うので気になっています。

数学的厳密性においてはルートをとることは間違いだが、実用上問題ないとか、

よく実社会においてはルートをとり標準偏差に戻すことはよく行われており、この程度のリスクがあるなど、

何らかのコメントを頂ければと思います。

関連する内容でもうひとつの質問ですが、

母集団からサンプルを抽出し、標準偏差を求めることを何度も繰り返すと、

標準偏差の平均値と、標準偏差の分布が見えてくると思います。

それをもって標準偏差の区間推定としてはいけないのでしょうか？

数学が全然できず、優しい回答頂ければ幸いです。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (25件中1～10件)

No.1

回答者： yhr2
回答日時：2021/08/19 21:04

母分散の区間推定が

　A < σ^2 < B
となったときに
　√A < σ < √B
としてよいか、ということですか？

「分散」と「標準偏差」の関係はそういうものですから、全く問題ないと思います。

＞標準偏差の平均値と、標準偏差の分布が見えてくると思います。
＞それをもって標準偏差の区間推定としてはいけないのでしょうか？

サンプル分散（あるいは標準偏差）の分布ということですね？
おっしゃるとおり、サンプル分散（あるいは標準偏差）の「ばらつき」が小さくなります。
その「数を増やしたサンプル」で母分散を推定すれば、少ないサンプルのときよりも「小さい範囲」「狭い区間」の結果が得られると思います。

でも、それは、最初考えた「サンプルサイズ n のサンプルの分散の分布」が「自由度 (n - 1) のカイ2乗分布」だったものが、サンプル群を N 個採って来ることによって「自由度 (Nn - 1) のカイ2乗分布」に変わったということです。
なので、「サンプルサイズを大きくした」ときの区間推定と同じことになります。
結局「サンプルサイズ n のサンプルをN個」採って来ても、「サンプルサイズ N×n のサンプルを１個」採って来ても、推定結果は同じことになります。

- 1
- 件

通報する

No.2

回答者： kamiyasiro
回答日時：2021/08/19 21:34

企業で統計を推進する立場の者です。

ダメです。区間推定できるのは分散だけです。

不偏分散 V の平方根 s は厳密には標準偏差 σ の不偏推定量ではありません（1999年のJISでは明記されていました。にもかかわらず、2015年のJISでは、「標本標準偏差はばらつきの指標である」という曖昧な表現になりました）。

よって、標準偏差の区間推定はやってはダメです。
その理由を実際に試行して示します。

①まず、N(0,1^2)の正規乱数を大量に発生させて（例えば10万個）、まず、μ＝0、σ＝１を確認します。省略します。

②そこから、ｎ＝5のサンプリングを行って標準偏差を求めることを1万回試行します。

③そのヒストグラムを描いてみると分布はいびつになります。その結果が下記です。「その期待値は１より小さく、大きい側にすそ野を引く分布形」になります。この形状はサンプルサイズで異なります。

なお、これを補正するのが「不偏化定数」で、d2、c4などの値があります。QC関係者は知っている話です。

- 0
- 件

通報する

No.3

回答者： yhr2
回答日時：2021/08/20 00:18

No.1 です。

回答者間のやりとりはちょっとなんですが、#2 さんの回答に対して確認したいことがあります。

確かに「サンプルの標準偏差を使って、母集団の標準偏差を推定する」のはNGかと思います。

そうではなく、「サンプルの分散を使って、母集団の分散の信頼区間を推定し、その推定した母分散から母標準偏差を算出する」場合もNGでしょうか？

- 0
- 件

通報する

No.4

回答者： kamiyasiro
回答日時：2021/08/20 03:01

#2です。

#3さん、ご指摘、ありがとうございます。

「サンプル」から母標準偏差を推定するとき、その期待値には偏りがある、ということです。「全数データ」を使う時は、回帰分析の信頼区間のごとくOKです。

・「サンプル」の分散（不偏分散）を使って、母集団の分散の信頼区間を推定するまではOKですが、

・その推定した母分散の信頼区間の値から標準偏差の信頼区間を算出することはNGです。平方根を取った時点でNGなのです。

・ただし、サンプルサイズが大きい時は、その差は僅かですし、正規分布近似ができます。それは、不偏と不偏じゃない分散の値が漸近してくるからです。

どの統計の本を見ても、「標準偏差の信頼区間」に言及していることは、ほぼありません。たまに新世代の人がやっちゃた、ということはあると思います。（そもそも（nー1）で割るということをやらない新世代がいますから。学校教育が矛盾しています）

私は60歳過ぎていますが、先の投稿にも書いたように、品質管理関係の旧JISには明確に書いてあり、企業内教育でも習ったし、サンプルサイズ≦５の時の標準偏差は、分散の平方根で求めずレンジ／d2で求めるということが、社内基準になっています。

これは、1960年代にQCを導入した会社であれば普通だと思います。管理図（日科技連かどこかが作成した標準的なもの）の欄外に「不偏化定数」を使った方法が明示してあるからです。

「不偏化定数」でググると、この偏りについて解説している記事が見つかると思います。「不偏化定数」があるってことは、偏っているということなんですが、世間での認識は薄いようです。

- 0
- 件

通報する

No.5

回答者： kamiyasiro
回答日時：2021/08/20 03:44

#2です。

私、ご質問の意図を誤解していました。すみません。

①サンプルの不偏分散の平方根の期待値は偏っていますが、
②サンプルの不偏分散の期待値（これは正しい推定値です）の平方根は点推定値として正しいです。

というご指摘ですね。ごもっともです。

つまり、
①var(x)の平方根を求めることを何度も繰り返したときの平均と
②var(x)を求めることを何度も繰り返したときの平均の平方根は
値が異なります。

②は#3さんのご指摘どおり正しい推定を行います。
①はそれよりも小さい値となります。

- 0
- 件

通報する

No.6

回答者： yhr2
回答日時：2021/08/20 10:07

No.1&3 です。

kamiyasiro さん、ご丁寧な回答ありがとうございます。

質問者さんのお知りになりたいことが#3 と同じかどうか分かりませんが、
・通常のやり方で「母分散の信頼区間」を推定し、
・それを「元の統計量」と次元を合わせるために「平方根」をとって「標準偏差」の値に置き替える
ことはやっても問題ない、ということでよろしいですね。
（「分散」は元の統計量の「2乗」の次元なので、統計量の次元に合わせるには平方根をとらないといけない）

質問者さんの後半については、
・「サンプル標準偏差」の分布を求めてそれをやるのは間違い（「サンプル標準偏差」は母集団の標準偏差には一致しないので、それで「母標準偏差」を推定することはできない）
・やるなら「サンプル分散から求めた不偏分散」の分布を用いるべし
ということですね？

- 0
- 件

通報する

この回答へのお礼

No.1,3,6のご回答者様

ご回答頂きまして、真に有難うございます。

また、お礼の返信がすぐに出来ず申し訳ありませんでした。

ご回答がたまってしまったことと、投稿文字数の関係で、恐縮ながらNo.1,3,6のご回答への返信は、No.6のお礼欄に集約させて頂きたいと思います。

もう一人のご回答者様のNo.2,4,5,7への返信はNo.7のお礼欄に集約していますのでそちらもご確認いただければと思います

■No.1のご回答に対しまして、

＞A < σ^2 < B、となったときに　√A < σ < √B、としてよいか、ということですか？

＞サンプル分散（あるいは標準偏差）の分布ということですね？

この2つに関して、私の質問意図はその通りでございます。

（2つ目に関して強いて言えば、質問時点では標準偏差の分布のみを念頭に置いておりサンプル分散の分布を描くことは意識していませんでした）

後半のご説明が私には難しかったのですが、こういうことですか？

サンプルサイズｎのサンプルはそもそもカイ二乗分布に従う。

それをＮ個とってきてたとしても前述のカイ二乗分布上にプロットされるだけでありやる必要はない。

認識合ってますでしょうか？

■No.3のご回答に対しまして、

私の最初の質問を改めてしていただいたわけですよね？有難うございます。

■No.6のご回答に対しまして、

ご代弁いただき助かります

＞通常のやり方で「母分散の信頼区間」を推定し、それを「元の統計量」と次元を合わせるために「平方根」をとって「標準偏差」の値に置き替えることはやっても問題ない、と

これは違うのではないかなと思っています。
No.4のご回答に、

＞その推定した母分散の信頼区間の値から標準偏差の信頼区間を算出することはNGです。平方根を取った時点でNGなのです。
とあるからです。

＞・「サンプル標準偏差」の分布を求めてそれをやるのは間違い（「サンプル標準偏差」は母集団の標準偏差には一致しないので、それで「母標準偏差」を推定することはできない）
＞・やるなら「サンプル分散から求めた不偏分散」の分布を用いるべし

これは私もそう思いました。

ただし、そこから標準偏差にしてはいけない（分散のまま活用する）ということなのかな？と思っています（・・が混乱中です）

通報する

お礼日時：2021/08/25 16:27

No.7

回答者： kamiyasiro
回答日時：2021/08/20 11:36

#6様、

丁寧に補足頂き、ありがとうございます。

補足頂きましたとおりです。私が意味を取り違えていたことをお詫びします。

ただ、ご質問者様の「標準偏差の区間推定」につきましては、#6さんが書かれたように、

標準偏差の平均（点推定値）は、不偏分散の期待値の平方根から求めれば、それは正しいですが、標準偏差の標準偏差はそうはいきません。
標準偏差の区間推定を分布のパラメータ（平均と標準偏差）を使って行うことはできません。

パラメータ間の換算は単に平方根を取るという単純なものではないです。

どうしても、範囲を示したい、というのであれば、「パーセンタイル」を使うことを提案します。

例えばサンプルサイズ＝５で分散を算出する試行を何度も行い、その結果をソートして、大きい側（上側）から全体の2.5％に相当するサンプルの分散の平方根を使うのです。これを97.5パーセンタイルと言います。同様に下側2.5％パーセンタイルを求めれば、異なる分布形間での対応付けができます。

これを「ブートストラップ信頼区間」といいます。非線形回帰の信頼区間を求めるときの定石です。

- 0
- 件

通報する

この回答へのお礼

No.2,4,5,7のご回答者様

ご回答頂きまして、真に有難うございます。

また、お礼の返信がすぐに出来ず申し訳ありませんでした。

ご回答がたまってしまったことと、投稿文字数の関係で、恐縮ながらNo.2,4,5,7のご回答への返信は、No.7のお礼欄に集約させて頂きたいと思います。

■No.2のご回答に対しまして

＞不偏分散 V の平方根 s は厳密には標準偏差 σ の不偏推定量ではありません

我々が普段よく使う、サンプルから求めた標準偏差は（特にサンプルサイズが小さい時は）どうしたって偏っているということで認識あってますでしょうか？

ところで、ここで言う標準偏差sは、分母がn-1のものを指していると思いますが、

分母がｎのものは多分もっと偏っているんだと思います。それもまた“不偏性が無い“と言うのでしょうか？

■No.２と4のご回答に対しまして、

＞ダメです。区間推定できるのは分散だけです。

＞「サンプル」の分散（不偏分散）を使って、母集団の分散の信頼区間を推定するまではOKですが、
＞その推定した母分散の信頼区間の値から標準偏差の信頼区間を算出することはNGです。平方根を取った時点でNGなのです。

つまり母分散の区間推定をしたら、それを標準偏差にせず、分散のまま活用するのが正しい。で合ってますか？

（No.6さんは標準偏差に置き換えてOKと理解しておられ、それに対してNo.7で『補足頂きましたとおりです』のコメントが有るのでで悩んでいます）

■No.4のご回答に対しまして、

サンプルサイズが大きい時というのはどれくらいか。これは難しいですね。

私は製造行ですが、統計学は当たるも八卦当たらぬも八卦みたいな世界でこそ生き生きと使えるのかなと感じています。

■No.5のご回答に対しまして、

＞①サンプルの不偏分散の平方根の期待値は偏っていますが、
＞②サンプルの不偏分散の期待値（これは正しい推定値です）の平方根は点推定値として正しいです。

①は、No.2のご回答でグラフを使って教えてくれた内容のことですよね？

②は理解できていないところです。

No.5のご回答で、＞平方根を取った時点でNGなのです。とおっしゃられた所と、理解が衝突してしまっています。

何卒宜しくお願い致します。

通報する

お礼日時：2021/08/25 16:31

No.8

回答者： kamiyasiro
回答日時：2021/08/25 23:20

#7です。

コメントありがとうございます。

＞つまり母分散の区間推定をしたら、それを標準偏差にせず、分散のまま活用するのが正しい。で合ってますか？

はい。平方根を取った時点で偏りますから、区間推定は分散のままでやって下さい。次のご質問と併せて、最後にグラフで示します。

＞サンプルサイズが大きい時というのはどれくらいか。これは難しいですね。

これは、製造業ではｎ＝５までは不偏化定数を使って標準偏差を推定せよ、と社内基準化しているのではないでしょうか。これもグラフで示します。

＞平方根を取った時点でNGなのです。とおっしゃられた所と、理解が衝突してしまっています。

何度も繰り返した結果の「平均値＝期待値」は、#6さんがご指摘されたようにほぼ正しい値を与えます。中心極限定理です。その期待値の平方根を取って標準偏差にするのは構いません。

このことは、お手元に使い慣れたプログラム言語があれば、1000万回程度のシミュレーションを行うことによって容易に判明します。
私が行った結果を示します。
ｎ＝５の小サンプルを標準正規乱数で発生させます。N(0,1^2)に従う乱数です。
この５個のデータの分散を求めることを1万回繰り返します。
そして１万個の分散の平均を取ります。 Rでやったら0.9981666でした。
この平均の平方根は、0.9990829でほぼ１です。正しいです。
この方法であれば標準偏差は正しく求まっています。

ところが！

同様に、小サンプルを標準正規乱数で発生させます。N(0,1^2)に従うはずです。標準偏差は１の周りに分布して欲しいです。
毎回、不偏分散を求めます。ここまでは同じです。
今度は１万個の不偏分散の各々の平方根を取って、標準偏差を求めます。
その１万個の標準偏差の分布とその中央値（ちょうど真ん中の１個の値）はどうなっているか見てみましょう。平均を見ないのは「期待値（均した値）」にしたくないからです。

添付のグラフは上から順に、ｎ＝２，３，４，５で、
左側が不偏分散の平方根、右側が不偏化定数を使ったもの（Ｒ／d2）です。
大きく偏って分布していることが分かります。
赤い線とヘッドの数字は中央値です。ちょうど50・50％となるデータの位置です。
本来これは（偏りが無ければ）１になるべき値です。分布はこの周りにばらついて欲しいです。

ｎ＝２（一番上）は論外ですが、ｎ＝５（一番下）であっても、不偏分散の平方根では、正しく標準偏差になっていないことが分かります。中央値でなく「標準偏差の平均値」で比べても差は小さくなれど傾向は同じです。それに対して不偏化定数を使ったものは、ｎ＝５であれば、まあまあ近似的に１になっています（赤い線の位置を比べて下さい）。

このように不偏分散の平方根は、小サンプル時は正しい母標準偏差の推定値とはならないのです。ですから、ばらつきの大きさや区間推定（区間の端の値は大量のデータの代表値ではなく１個の値）を行うときは（不偏）分散のまま行うのが好ましいです。

- 0
- 件

通報する

No.9

回答者： kamiyasiro
回答日時：2021/08/25 23:22

このことは、お手元に使い慣れたプログラム言語があれば、「1000万回」程度のシミュレーションを行うことによって容易に判明します。

訂正します→１万回

- 0
- 件

通報する

No.10

回答者： kamiyasiro
回答日時：2021/08/26 01:19

#8です。

回答を漏らしていました。すみません。

＞No.6さんは（区間の端の値を）標準偏差に置き換えてOKと理解しておられ、それに対してNo.7で『補足頂きましたとおりです』のコメントが有るのでで悩んでいます。

すみません。区間の端の値は、繰り返しを均した期待値ではありませんので、NGです。ここは間違っていますね。

なぜなら、#8に書いた事例を用いて説明しますと、不偏分散の期待値は１万個の平均で、これは正しく標準偏差と対応していましたが、区間の端の値は１万個中の１個でしかありません。サンプルサイズ１では正しい推定はできません。

もし、不偏分散の平均値のように、端の値も期待値を求めているのであればOKです。

つまり、１万個の分布の区間の端（１個）を求める操作をさらに１万回やって期待値を求めれば、中心極限定理によってほぼほぼ正しい推定値になります。

この場合は、その期待値の平方根を求めて標準偏差の区間の値だと言っても良いです。

これを応用しているのが、エフロン先生のブートストラップ法です。現有のデータから再標本化によって上記の操作を行い、区間推定を行います。