gooサービスにログインしづらい事象について

統計学の初心者です。
標本の平均値や分散等の基本統計量から、母集団の取り得る値の区間推定を行うことは可能でしょうか?

具体的には,標本の値が与えられた中で、母集団において95%の確率でAからBの値で値が収まるという為にAとBの値を標本から推定したいと考えていますが、インターネットで検索を行っても母平均の区間推定の話が多く出てきてしまっており困っております。
どなたか詳しい方ご存知でしたらご教授いただければと思います
宜しくお願いします。

質問者からの補足コメント

  • 記載を忘れてしまいましたが、標本のデータとしては、身長等の数値データの場合を想定して頂ければと思います。宜しくお願いします。

      補足日時:2017/12/21 18:15
  • kamiyasiro様のご回答中の”教科書的な方法”内の式にて
    √(1+1/n)・V
    と記載がありますが、この数式は、標本の分散を不偏分散に変換した上で母集団の標準偏差を代用しているという認識でよろしいでしょうか?
    もしその認識であれば,Vへかかる係数は”n/(n-1)”となりますでしょうか
    見当違いな質問をしていましたら申し訳ありません。
    宜しくお願い致します

      補足日時:2017/12/22 16:21
  • 質問側の補足とお礼コメントへ別々に投稿をしてしまいましたのでこちらに再度記載いたします。

    追加の質問となってしまうのですが,現在当方が所持しているサンプル数は35程度であり、ヒストグラムを描くと正規分布の様な状態が見て取れます。
    その為正規分布と仮定してお教えして頂いた方法をそのまま適用しても問題無いのでしょうか?正規分布に従うと数的に示した方が良いのでしょうか

    また,kamiyasiro様のご回答中の”教科書的な方法”内の式にて
    √(1+1/n)・V
    と記載がありますが、この数式は、標本の分散を不偏分散に変換した上で母集団の標準偏差を代用しているという認識でよろしいでしょうか?
    もしその認識であれば,Vへかかる係数は”n/(n-1)”となりますでしょうか
    見当違いな質問をしていましたら申し訳ありません。
    宜しくお願い致します

    No.1の回答に寄せられた補足コメントです。 補足日時:2017/12/22 16:26

A 回答 (2件)

#1です。



最初の疑問点について、
母集団が正規分布だと仮定されるときは、サンプリングデータがいびつであってもOKです。
サンプリングデータが正規分布に従っていることを示すには、正規確率プロットでできますが、それが少々いびつになることは(正規乱数を生成してみれば分かることですが)頻繁に起こり得ますので、正規性の強い縛りがある計算(例えば工程能力指数など)以外は母集団が正規分布ということで良いかと思います。
多くの教科書で、「ある部品は、N(○,○)の正規分布に従うことが分かっている。今回、n個のサンプル●●、●●、・・・を取得した。」とありますが、●●、●●の数値は一様分布だったりします。でも「母集団が正規分布」という断り書きは必ずあるはずです。

次の疑問点について、
サンプルから計算されたVは不偏分散です。n-1で割ったものです。わざわざ標本分散に変換する必要はありません。
√の中の、1/n×Vは、言い換えればσ/√nです。これは母平均の標準偏差です。つまり、1 +1/nは、(母分散の点推定値)+(母平均の分散)を表しているのです。

また、ネットで「予測区間」で探すと、回帰の予測区間が出てきてしまいます。これは√内に回帰変動が加わっていて混乱しますので、√内が(データ分散)+(平均の分散)になっているものを探してご確認ください。
    • good
    • 1
この回答へのお礼

ご回答ありがとうございます
母平均の分散と、母集団の分散を足した上で平方根を取ることで標準偏差を模擬するということで理解ができました
ありがとうございます

お礼日時:2017/12/25 10:44

企業でSQCを推進する立場の者です。



いくつもありますので、列挙します。

「こうすべきだが、実用的ではないという方法」
標本の平均と分散から、母平均の区間推定というか、母平均の分布が与えられます。これはご質問者がおっしゃっているとおりです。
そして、標本から母分散も区間として求められます。平均を区間推定でやるってことは、分散も区間推定すべきってことだから、母集団は、平均の点推定値のまわりに、
(平均の分散)+(母分散の区間推定の最悪値)
という分散の加法性を利用した分布を考えます。でも、これは全く現実からはかけ離れた分布になります。

「現実的な方法・教科書的な方法」
上記を変更し、
(平均の分散)+(母分散の点推定値)
として、母平均の点推定値まわりの分布を考えます。分散は推定幅を考慮しません。
一般的には母分散は未知で、データ分散Vを使いますから、t分布を使うことになります。よく見かける次の「データの予測区間」の式がこの考え方です。危険率をαとすると

x.hat=x.bar±t(φ=n-1,α)√(1+1/n)・V

途中の平方根は最後まで掛っています。平方根の中の(1+1/n)・Vの前の項1×Vが(母分散の点推定値)、後ろの項1/n×Vが(平均の分散)になります。

「世間一般の方法」
母平均の点推定値のまわりに、データ分散と同じ大きさのばらつきを持った分布を考えます。母集団μ±3σを、m±3s でやってしまえ、という方法です。多くの人はこれでやっています。

「ベイズ逆推定を使う」
取りうる平均値が、ある確信度で何々~何々までと分かっていれば、ベイズの積分公式を使って平均の逆推定値、分散の逆推定値を求めて、母集団を逆推定するのが一番良いと思います。

お薦めは当然「教科書的な方法」、私だったら「ベイズ」を使います。
この回答への補足あり
    • good
    • 0
この回答へのお礼

詳しくご教授頂きありがとうございます。
追加の質問となってしまうのですが,現在当方が所持しているサンプル数は35程度であり、ヒストグラムを描くと正規分布の様な状態が見て取れます。
その為正規分布と仮定してお教えして頂いた方法をそのまま適用しても問題無いのでしょうか?正規分布に従うと数的に示した方が良いのでしょうか?

お礼日時:2017/12/22 09:39

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報