人に聞けない痔の悩み、これでスッキリ >>

ある実験のデータの値が正規分布していなかったのに、対数変換した値は正規分布することがありますが、それはなぜですか?
もとの値は正規分布していなかったのに、対数で正規分布していたら正規分布していたとして良いのでしょうか?

統計についてあまり詳しくわからないのです…。
よろしくおねがいします。

このQ&Aに関連する最新のQ&A

A 回答 (1件)

正規分布は確率変数の変域として-∞から∞まで取ります。

実際はμ-3σ(μは平均値、σは標準偏差)程度で大分0に近づきます。
しかし物の個数のように決して確率変数がマイナスにならない場合、正規分布では対応しきれません。
対数正規分布は確率変数が必ず正なのでうまくfitすることがあります。つまり確率変数x自体は正でも1
以下の場合を含めるとlogxの変域は実数全体となり、logxは正規分布することが可能です。

注意すべきことは正規分布では平均値も標準偏差も確率変数と同じ次元をとりますが、対数正規分布では平均値は確率変数と同じ次元ですが標準偏差は無次元であることです。従って、標準偏差でないという意味で形状係数という人もいます。

正規分布は平均値が確率密度の最大値を与えますが対数正規分布ではそうはなりません。そのようないろいろな性格を把握したうえで使うべきです。
    • good
    • 1

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Qエクセル STDEVとSTDEVPの違い

エクセルの統計関数で標準偏差を求める時、STDEVとSTDEVPがあります。両者の違いが良くわかりません。
宜しかったら、恐縮ですが、以下の具体例で、『噛み砕いて』教えて下さい。
(例)
セルA1~A13に1~13の数字を入力、平均値=7、STDEVでは3.89444、STDEVPでは3.741657となります。
また、平均値7と各数字の差を取り、それを2乗し、総和を取る(182)、これをデータの個数13で割る(14)、この平方根を取ると3.741657となります。
では、STDEVとSTDEVPの違いは何なのでしょうか?統計のことは疎く、お手数ですが、サルにもわかるようご教授頂きたく、お願い致します。

Aベストアンサー

データが母集団そのものからとったか、標本データかで違います。また母集団そのものだったとしても(例えばクラス全員というような)、その背景にさらならる母集団(例えば学年全体)を想定して比較するような時もありますので、その場合は標本となります。
で標本データの時はSTDEVを使って、母集団の時はSTDEVPをつかうことになります。
公式の違いは分母がn-1(STDEV)かn(STDEVP)かの違いしかありません。まぁ感覚的に理解するなら、分母がn-1になるということはそれだけ結果が大きくなるわけで、つまりそれだけのりしろを多くもって推測に当たるというようなことになります。
AとBの違いがあるかないかという推測をする時、通常は標本同士の検証になるわけですので、偏差を余裕をもってわざとちょっと大きめに見るということで、それだけ確証の度合いを上げるというわけです。

Q対数正規分布

確率変数が対数正規分布に従うとき期待値はどのように求めればよいのでしょうか??モーメント母関数をつかうのでしょうか??

Aベストアンサー

Xが対数正規分布に従うとして、その確率密度関数を、
f(x)=1/√(2π)σ・(1/x)exp{-(logx-μ)^2/σ^2}
とすると、Y=logX、すなわちX=exp(Y)なるYは、確率密度関数、
f(y)=1/√(2π)σ・exp{-(y-μ)^2/σ^2}
を持つ正規分布に従います。
よって、
E(X^k)
=E(exp(kY))
=∫(-∞,∞)exp(ky)・1/√(2π)σ・exp{-(y-μ)^2/σ^2}dy
を計算すればよいのですが、expの中身をyで平方完成すれば計算
できます。
k=1とすれば平均E(X)が求まり、k=2とすれば2次モーメントE(X^2)
が求まって、分散V(X)=E(X^2)-E(X)^2が計算できます。

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Q正規分布に従わないと標準偏差の算出は向かないでしょうか?

正規分布に従うとは、平均値の分布が多いという意味でしょうか?

日々変わるデータの点数が凸のような分布でなく、平均値付近が少ない
凹のようなデータの集合だと、標準偏差を算出し正規分布を使い
30%以下の人や70%以上の人を毎日抽出するような用途には
向かないのでしょうか?

Aベストアンサー

まず、正規分布に従うとは、「分布が正規分布のグラフと同じ形をする事」をいいます。
そのため、平均辺りが多くても△のような分布グラフだったり、
左右が対象でないと、「正規分布に従う」とは言いません。

そのため、試験の成績などは、「正規分布に近い」だけであって、
「正規分布に従っている」のではありません。

つまり、「偏差値」を使うべきかどうかは、偏差値の「分かりやすさ」と、
その分布が正規分布に近いかどうかの判断になります。



例えば、凹のようなデータでも、両端がなだらかになっていれば、そこそこ偏差値も使えます。

逆に、両端が崖のようになっていると、偏差値を使うのは控えた方がいいでしょう。
(たとえば、30点や、80点の人は多いけど、29点以下や、81点以上がいないなど)

また、分布が左右対称でない場合も、使用をやめた方がいいでしょう。
平均値と、中央値(順位が真ん中の人の値)が離れると、偏差値の感覚的な値とは
ずれてきます。



いずれにしても、ある程度のデータがあるのであれば、そのデータで
やってみるのが一番です。

出るべき結果と大きなずれがなければ、分かりやすいので使ってしまっても
いいのではないでしょうか。

試験の結果なんかでも、山が二つあったり、左右に偏っている事なんて
よくあります。

それでも、偏差値が、それなりに機能していますから、まずはやってみるのが
いいのではないかと思います。

まず、正規分布に従うとは、「分布が正規分布のグラフと同じ形をする事」をいいます。
そのため、平均辺りが多くても△のような分布グラフだったり、
左右が対象でないと、「正規分布に従う」とは言いません。

そのため、試験の成績などは、「正規分布に近い」だけであって、
「正規分布に従っている」のではありません。

つまり、「偏差値」を使うべきかどうかは、偏差値の「分かりやすさ」と、
その分布が正規分布に近いかどうかの判断になります。



例えば、凹のようなデータでも、両端がなだら...続きを読む

Q相関係数についてくるP値とは何ですか?

相関係数についてくるP値の意味がわかりません。

r=0.90 (P<0.001)

P=0.05で相関がない

という表現は何を意味しているのでしょうか?
またMS Excelを使ってのP値の計算方法を教えてください。

よろしくお願い致します。

Aベストアンサー

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場合はp=0.1%でもいいと思いますが)
相関係数においても相関の有無を結論つけるにはそのrが偶然出る確率を出すか、5%の確率ならrがどれぐらいの値が出るかを知っておく必要が有ります。

>r=0.90 (P<0.001)

相関係数は0.90と計算された。相関がないのに偶然r=0.90 となる確率は0.001以下だと言ってます。

>P=0.05で相関がない

相関がないと結論。(間違っている確率は5%以下)だと言ってます。

エクセルでの計算ですが、まず関数CORRELを使ってr値を出します。xデータがA1からA10に、yデータがB1からB10に入っているとして

r=CORREL(A1:A10,B1:B10)

次にそのr値をt値に変換します。

t=r*(n-2)^0.5/(1-r^2)^0.5

ここでnは組みデータの数です。((x1,y1),(x2,y2),・・・(xn,yn))
最後に関数TDISTで確率に変換します。両側です。

p=TDIST(t値,n-2,2)

もっと簡単な方法があるかも知れませんが、私ならこう計算します。(アドインの分析ツールを使う以外は)

pは確率(probability)のpです。全く相関のない数字を組み合わせたときにそのr値が出る確率をあらわしています。

統計・確率には100%言い切れることはまずありません。というか100%言い切れるのなら統計・確率を使う必要は有りません。
例えばサイコロを5回振って全て同じ目が出る確率は0.08%です。そんな時、そのサイコロを不良品(イカサマ?)と結論つけるとわずかに間違っている可能性が残っています。ただ、それが5%以下ならp=0.05でそのサイコロは正常ではないと結論付けます。
それが危険率です。(この場...続きを読む

Q対数変換の有用性について

医学データなど対数正規分布に従うようなデータの2標本の差の検定を行う際、参考書では対数変換して正規性を確認してt検定を行うと記載してありますが、これを対数変換せずにMann-Whitney検定を行うことの問題点はどこにあるのでしょうか?ご教授のほどよろしくお願いいたします。

Aベストアンサー

検出力が劣るからです。

使える情報が
t検定:相対数値差⊂順位
Mann-Whitney検定:順位
と理解すれば直感しやすいかと思います。

詳しい話は以下に詳しいです。
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.html
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/power.html

QExcelでLog10を自然数に直すには

Excelで=Log10(1000)で常用対数が計算できますが、逆に対数を自然数(3を1000)に直す計算式はどうするのでしょう。ExcelのHelpにもGooでも検索したがわかりません。

Aベストアンサー

=10^3 で、1000 になります。
また、Log10(2) ≒ 0.3 ですが、
=10^0.3 ≒ 2 です。

つまり、=10^(常用対数)で、元の数が計算できます。
あと、この場合、対数に対して、元の数は、「真数」と呼びます。

Q信頼区間 正規分布しない場合

信頼区間を求める方法として、「標準正規分布では値が1.96以上の曲線下の面積と、-1.96以下の面積を合計すると0.05である。そこで平均から標準誤差SEに1.96の値をかけ算した値を引いた値と足した値の範囲に真の値が含まれるはずと言うことになる。これを95%信頼区間という」と本に記載されていました。母集団が少なく、正規分布していないであろうと思われるサンプルであっても、この方法に従い信頼区間を算出することは適切でしょうか?
具体的には以下の2群のそれぞれについて95%信頼区間を知りたいのです。
統計については素人なので的はずれな質問かも知れません。
X
209.1
280
91
124
80.57884211
67
152.2
88.584
138.0215385
112.43
115.71
97
128
144

Y
145.035
113.2352941
143.5
117.25
62
78
58
79.5
68.49975
73.85728571
81.61222222
190.5
58
179.25
84
76.6665
168.92
76.76

信頼区間を求める方法として、「標準正規分布では値が1.96以上の曲線下の面積と、-1.96以下の面積を合計すると0.05である。そこで平均から標準誤差SEに1.96の値をかけ算した値を引いた値と足した値の範囲に真の値が含まれるはずと言うことになる。これを95%信頼区間という」と本に記載されていました。母集団が少なく、正規分布していないであろうと思われるサンプルであっても、この方法に従い信頼区間を算出することは適切でしょうか?
具体的には以下の2群のそれぞれについて95%信頼区間を知りたいので...続きを読む

Aベストアンサー

通常用いられる区間推定法は、標本が正規分布に従うことを仮定していますので、#1さんの仰られている様に、標本が正規分布に従っていると見なせる場合しか使えません。
データのヒストグラムや統計的性質、そもそもの観測対象の性質を勘案して最適な標本分布のモデルを作り、両側5%点を計算することになるのでしょうか。

と言っても処方箋がないと困るでしょうから、私がこのデータをもらって信頼区間を推定せよ、と言われたらどうするか、という視点で以下私見を述べさせていただきます。

まずはヒストグラムを描いて、正規分布が当てはまりそうか目で確認します。統計的にきちんとやるなら、正規性の検定(#1の方の参考URLにある1標本Kolmogorov-Smilnov検定など)を行うのでしょうが、ここは簡便にいきます。
実際にヒストグラムを描くと(Excelで簡単に描けます)、ピークの右に裾を引いた非対称な分布になっており、正規分布は当てはまりそうにありません。
右裾の厚い非対称な分布の候補としては、対数正規分布やΓ-分布が代表的なので、これらを検討することになると思います。
特に、対数正規分布を仮定すれば、通常の区間推定法を使える(標本の対数を取って、それが正規分布に従うとすれば良い)ので、真先に検討することになるでしょう。
また一定値(50?)以下は取らないような標本にも思えますが、もしそうなら、その閾値を引いた値に対して、上記の分布を当てはめることになるでしょう。

以上です。
もっとも、これはあくまで与えられたデータだけに基づく考察であり、観測対象の理解とモデル化から始めるのが本来であろうと思います。観測対象の詳細が分かれば、より妥当なモデル化の方法があるかもしれません。

通常用いられる区間推定法は、標本が正規分布に従うことを仮定していますので、#1さんの仰られている様に、標本が正規分布に従っていると見なせる場合しか使えません。
データのヒストグラムや統計的性質、そもそもの観測対象の性質を勘案して最適な標本分布のモデルを作り、両側5%点を計算することになるのでしょうか。

と言っても処方箋がないと困るでしょうから、私がこのデータをもらって信頼区間を推定せよ、と言われたらどうするか、という視点で以下私見を述べさせていただきます。

まずはヒストグ...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング