ついに夏本番!さぁ、家族でキャンプに行くぞ! >>

はじめまして。
 さて,標記の件ですが,サンプル群が標準正規分布に従うと仮定して点数付けをしているのですが,どうもそのサンプル群が標準正規分布に従っていないため,いびつな点数付けになって困っています。
 そうなると,他の確率分布(カイ2乗分布やt分布など)に従うと思うのですが,サンプル群がどの確率分布に当てはまりが良いかを推定する方法を教えて頂けないでしょうか。また,それが掲載されている本,ホームページ,解析ツールがあれば教えて頂けないでしょうか。
 よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

パラメトリックな方法を取るためには、分布の推定をしたいですが、それは純粋解析的な方法というよりはある種の仮説推定が手っ取り早いと思います。

大雑把でもいいので、どのようなサンプル群から得たデータかを考えて、その分布を予想するのです。その上でパラメータの推定を最尤法、あるいはモーメント法、もしくは区間推定(正規母集団近似、できなければ精密法)などで予想することができます。

たとえば測定値の平均からのずれなどならば、正規分布に従うと予想できますし、毎時のメール着信数などであればポアッソン分布に従う、あるいは耐久時間などなら指数分布に従う、と予想されます。より一般的なサンプルの場合、これら既存の確率分布のどれにより近いかを想像するのは大変ですが、なんらかの理由付けで確率分布を推定するのは、解析的な方法よりは正確であるようには思います。そして推定したあとはたとえば適合度検定などを行ってみるとよいと思います。

またデータの平均、分散、さらに3次モーメント、4次モーメント(あるいは尖度、歪度)を計算してみて、既存の確率分布のそれと比較する(モーメント法とと同じことですが)、もしくは、実際にサンプルの分布をグラフ化して比較するのも視覚的にわかりやすいかも知れないと思います。エクセルが使えるなら一番てっとり早いと思います。

結構最近出た本ですが、【統計分布ハンドブック】という本はかなり詳しく分布についての辞典です。確率分布の公式集というのが役に立つかも知れません。連続分布ならグラフ化するのがよいですが、グラフ表示ソフトがあれば便利でしょう。お持ちでなければ、googleかyahooで適当な分布で検索されてみれば、どこかのwebページで掲載されていると思います。http://www.math.keio.ac.jp/edu/bookshelf/bookshe …

よく分布の当てはまりを調べるのにχ^2適合度検定などを行ったりしますが、これは「その分布は適当ではない」かどうかを調べる検定ですので、積極的にその分布を支持するものではないです。ですが、よくこういった手法も使われると思うので、予想が出来たら適合度検定を行われるのもよいかと思います。このあたりのことはほとんどすべての統計の本に記述があると思います。

この回答への補足

お書きの回答は大変参考になりました。どうも有難うございます。統計学は大学でかじった程度で、あまり理解していませんので、これを機に勉強しようと思います。
 ただあつかましいんですが、これを自動で計算してくれるようなツールはないでしょうか。サンプル群が30程度あって全部をその方法でやっていたら大変だと思いまして・・・

補足日時:2005/04/22 16:23
    • good
    • 0

回答つきませんね



まず些細なことですが、確認したいので...
> サンプル群が標準正規分布に従うと仮定
このくだりは
「サンプル群が正規分布に従うと仮定し、サンプル平均と標準偏差で正規化」
の意味ですね?
また、点数付けの意味がちょっとよくわからないので、補足をいただけますか?
というのも素人目には、サンプルの分布の性質がわかっているから(点数付けがいびつであると)判断できるのでは?と思えるからです。

さて
サンプルからその確率分布を推定するということですが、手順としてはヒストグラムを描く ことあたりからはじめ、歪度や尖度を求めてみて考えることになります。
その次は、最尤法でパラメータを推定し推定精度のよしあしを評価するか、ノンパラメトリックにナントカしようとするか、という話になってくるかと思います。

この回答への補足

>「サンプル群が正規分布に従うと仮定し、サンプル>平均と標準偏差で正規化」
>の意味ですね?

 その通りです。また、点数付けの方法ですが、正規分布を20%ずつ区切って上から順にランクA、B、C、D、Eと付ける方法をとっています。
 このような点数付けをしますと、例えば、サンプル群が0以上の値しかないのに、ランクEが-10未満になり、ランクEに該当するサンプルが一つもなくなるといった事態が発生します。これに対して「いびつな」という表現をとりました。抽象的な表現ですいませんでした。
 お書きの回答は大変参考になりました。どうも有難うございます。統計学は大学でかじった程度で、あまり理解していませんので、これを機に勉強しようと思います。
 ただあつかましいんですが、これを自動で計算してくれるようなツールはないでしょうか。サンプル群が30程度あって全部をその方法でやっていたら大変だと思いまして・・・

補足日時:2005/04/22 16:00
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qデータが正規分布しているか判断するには???

初歩的なことですが。。急いでいます。
おわかりになる方 教えてください。
サンプリングしたデータが正規分布しているかどうかを確認するにはどうすればよろしいでしょうか。
素人でも分かるように説明したいのですが。。
定性的にはヒストグラムを作り視覚的に訴える方法があると思います。今回は定量的に判断する方法を知りたいです。宜しくお願いします。

Aベストアンサー

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区間距離、度数区分数は、正規的なグラフになるように試行錯誤で行うことが多い(区間距離や度数区分数を本来の分布に則するようにいろいろ当てはめて解釈する。データ個数の不足や、データの取り方、または見かけ上の分布によりデータのばらつきが正しく反映されて見えないことがあるため)のですが、度数区分数は、機械的に、
=ROUNDUP(1+LOG10(データ個数)/LOG10(2),0):エクセル計算式
で区分数を求める方法があります。
 また、区間距離は、=ROUND((データの最高値-最低値)/(度数区分数値-1),有効桁数)で求め、区分の左端は、
=ROUNDUP(データの最低値-区間距離/2,有効桁数)
右端は=ROUNDUP(データの最高値+区間距離/2,有効桁数)
とします。
 区間がと度数区分数が出たら、その範囲にあるデータ数を数えて、ヒストグラムができます。
 
>最小側、最大側は 最小値、最大値を含んだ値としなければならないのでしょうか。
 ヒストグラム作成の処理に関しては、上記を参考にしてください。
 その前に、データの最小値と最大値が、正しくとれたデータか検討するため、棄却検定で外れ値が存在するか否かを検定し、外れ値が存在しないと結論づけられたら、正規分布の検定を行ってみてください。もし外れ値が存在する可能性があれば、そもそも、そのデータの信頼性が失われます。サンプリング手法の再検討(データの取り方に偏りがなかったか、無作為に設定してデータを取っていたか等)をして、再度データを得る必要があります。また、そもそも検定する以前に、データ数が少ないと判断が付かなくなってしまいますので、データ数は十分揃える(少なくとも20~30個)必要もあります。

>機械的に処理してみるとできました。
>でも理屈を理解できていません。
 とりあえず、理屈は後で勉強するとして、有意水準5%で有意差あり(有意確率が0.05以下)であれば、正規分布ではないと結論づけてお終いでいいのではないですか。
>この検定をもっと初心者でもわかりやすく解説しているサイト等ご存じありませんか。
 私が知っている限りでは、紹介したURLのサイトが最も丁寧でわかりやすいサイトでした。
>データの区間を分けるときのルール等ありますでしょうか。
 ヒストグラムを作成する場合、区...続きを読む

Q統計学的に信頼できるサンプル数って?

統計の「と」の字も理解していない者ですが、
よく「統計学的に信頼できるサンプル数」っていいますよね。

あれって「この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる」という決まりがあるものなのでしょうか?
また、その標本数はどのように算定され、どのような評価基準をもって客観的に信頼できると判断できるのでしょうか?
たとえば、99人の専門家が信頼できると言い、1人がまだこの数では信頼できないと言った場合は信頼できるサンプル数と言えるのでしょうか?

わかりやすく教えていただけると幸いです。

Aベストアンサー

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要なサンプル数は、比べる検定手法により計算できるものもあります。
 最低限必要なサンプル数ということでは、例えば、ある集団から、ある条件で抽出したサンプルと、条件付けをしないで抽出したサンプル(比べるための基準となるサンプル)を比較するときに、そのサンプルの分布が正規分布(正規分布解説:身長を5cmきざみでグループ分けし、低いグループから順に並べたときに、日本人男子の身長なら170cm前後のグループの人数が最も多く、それよりも高い人のグループと低い人のグループの人数は、170cmのグループから離れるほど人数が減ってくるような集団の分布様式)でない分布形態で、しかし分布の形は双方とも同じような場合「Wilcoxon符号順位検定」という検定手法で検定することができますが、この検定手法は、サンプルデータに同じ値を含まずに最低6つのサンプル数が必要になります。それ以下では、いくらデータに差があるように見えても検定で差を検出できません。
 また、統計上差を出すのに必要なサンプル数の例では、A国とB国のそれぞれの成人男子の身長サンプルがともに正規分布、または正規分布と仮定した場合に「t検定」という検定手法で検定することができますが、このときにはその分布を差がないのにあると間違える確率と、差があるのにないと間違える確率の許容値を自分で決めた上で、そのサンプルの分布の値のばらつき具合から、計算して求めることができます。ただし、その計算は、現実に集めたそれぞれのサンプル間で生じた平均値の差や分布のばらつき具合(分散値)、どのくらいの程度で判定を間違える可能性がどこまで許されるかなどの条件から、サンプル間で差があると認められるために必要なサンプル数ですから、まったく同じデータを集めた場合でない限り、計算上算出された(差を出すために)必要なサンプル数だけサンプルデータを集めれば、差があると判定されます(すなわち、サンプルを無制限に集めることができれば、だいたい差が出るという判定となる)。よって、集めるサンプルの種類により、計算上出された(差を出すために)必要なサンプル数が現実的に妥当なものか、そうでないのかを、最終的には人間が判断することになります。

 具体的に例示してみましょう。
 ある集団からランダムに集めたデータが15,12,18,12,22,13,21,12,17,15,19、もう一方のデータが22,21,25,24,24,18,18,26,21,27,25としましょう。一見すると後者のほうが値が大きく、前者と差があるように見えます。そこで、差を検定するために、t検定を行います。結果として計算上差があり、前者と後者は計算上差がないのにあると間違えて判断する可能性の許容値(有意確率)何%の確率で差があるといえます。常識的に考えても、これだけのサンプル数で差があると計算されたのだから、差があると判断しても差し支えないだろうと判断できます。
 ちなみにこの場合の差が出るための必要サンプル数は、有意確率5%、検出力0.8とした場合に5.7299、つまりそれぞれの集団で6つ以上サンプルを集めれば、差を出せるのです。一方、サンプルが、15,12,18,12,21,20,21,25,24,19の集団と、22,21125,24,24,15,12,18,12,22の集団ではどうでしょう。有意確率5%で差があるとはいえない結果になります。この場合に、このサンプルの分布様式で拾い出して差を出すために必要なサンプル数は551.33となり、552個もサンプルを抽出しないと差が出ないことになります。この計算上の必要サンプル数がこのくらい調査しないといけないものならば、必要サンプル数以上のサンプルを集めて調べなければなりませんし、これだけの数を集める必要がない、もしくは集めることが困難な場合は差があるとはいえないという判断をすることになるかと思います。

 一方、支持率調査や視聴率調査などの場合、比べるべき基準の対象がありません。その場合は、サンプル数が少ないレベルで予備調査を行い、さらにもう少しサンプル数を増やして予備調査を行いを何回か繰り返し、それぞれの調査でサンプルの分布形やその他検討するべき指数を計算し、これ以上集計をとってもデータのばらつきや変化が許容範囲(小数点何桁レベルの誤差)に納まるようなサンプル数を算出していると考えます。テレビ視聴率調査は関東では300件のサンプル数程度と聞いていますが、調査会社ではサンプルのとり方がなるべく関東在住の家庭構成と年齢層、性別などの割合が同じになるように、また、サンプルをとる地域の人口分布が同じ割合になるようにサンプル抽出条件を整えた上で、ランダムに抽出しているため、数千万人いる関東の本当の視聴率を割合反映して出しているそうです。これはすでに必要サンプル数の割り出し方がノウハウとして知られていますが、未知の調査項目では必要サンプル数を導き出すためには試行錯誤で適切と判断できる数をひたすら調査するしかないかと思います。

> どのような評価基準をもって客観的に信頼できると判断・・・
 例えば、工場で作られるネジの直径などは、まったくばらつきなくぴったり想定した直径のネジを作ることはきわめて困難です。多少の大きさのばらつきが生じてしまいます。1mm違っても規格外品となります。工場では企画外品をなるべく出さないように、統計を取って、ネジの直径のばらつき具合を調べ、製造工程をチェックして、不良品の出る確率を下げようとします。しかし、製品をすべて調べるわけにはいきません。そこで、調べるのに最低限必要なサンプル数を調査と計算を重ねてチェックしていきます。
 一方、農場で生産されたネギの直径は、1mmくらいの差ならほぼ同じロットとして扱われます。また、農産物は年や品種の違いにより生育に差が出やすく、そもそも規格はネジに比べて相当ばらつき具合の許容範囲が広くなっています。ネジに対してネギのような検査を行っていたのでは信頼性が損なわれます。
 そもそも、統計学的検定は客観的判断基準の一指針ではあっても絶対的な評価になりません。あくまでも最終的に判断するのは人間であって、それも、サンプルの質や検証する精度によって、必要サンプルは変わるのです。

 あと、お礼の欄にあった専門家:統計学者とありましたが、統計学者が指摘できるのはあくまでもそのサンプルに対して適切な検定を使って正しい計算を行ったかだけで、たとえ適切な検定手法で導き出された結果であっても、それが妥当か否か判断することは難しいと思います。そのサンプルが、何を示し、何を解き明かし、何に利用されるかで信頼度は変化するからです。
 ただ、経験則上指標的なものはあります。正規分布を示すサンプルなら、20~30のサンプル数があれば検定上差し支えない(それ以下でも問題ない場合もある)とか、正規分布でないサンプルは最低6~8のサンプル数が必要とか、厳密さを要求される調査であれば50くらいのサンプル数が必要であろうとかです。でも、あくまでも指標です。

> この統計を調べたいときはこれぐらいのサンプル数があれば信頼できる・・・
 調べたいどの集団でも、ある一定数以上なら信頼できるというような決まりはありません。
 何かサンプルを集め、それをなんかの傾向があるかどうかという仮説を検証するために統計学的検定を行って、仮設が否定されるかされないかを調べる中で、どの検定方法を使うかで、最低限必要なサンプル数というのはあります。また、集めたサンプルを何か基準とすべき別のサンプルと比べる検定して、基準のサンプルと統計上差を出すに必要な...続きを読む

Q対数変換する意味?

私は数学が苦手な文系大学生です。最近「地域分析」という本を読んでいるのですが、たびたび数式を「対数変換すると・・・」と言う風に話が進みます。対数変換をすることの意味がわからないので内容が理解できません。

まず、対数変換とは何なのか?対数変換を行なうと何がどのように変わるのでしょうか?
また、一般的に対数変換とはどのような目的で行なわれるのでしょうか?

ということを文系の学生にわかりやすく教えていただけないでしょうか。
対数変換の内容を理解していないため、質問が的を得ていないかもしれませんが、よろしくお願いします。(また、ここで説明できるような内容でなければ、その旨をお伝えください。)

Aベストアンサー

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

このように表現すると、正の数値で1以下の小数から
万や億などの非常に大きい値に散らばる数値サンプルを
整理したり表現するのに非常に便利です。

また、対数にしてグラフを作ると、上記のように非常に
大きな数(または0.00000・・・・のように非常に小さい数)
を限られた紙面上でプロットする事ができます。
もしそのプロットした結果が直線になった場合、
その直線の傾きでサンプルの近似式を導き出すこともできます。

具体的例を挙げると、身近なものではpH値。
これはある液体の単位量あたりどのくらい水素イオンが
含まれるかを対数表現したものです。
(厳密には、モル濃度で表した水素イオン濃度の逆数の常用対数)

まとめると、対数は小数から数万・億などの広範囲に散らばる
数値を整理するために使われる道具とお考えになられたら
良いと思います。

まず、ここで論じられている「対数」が「常用対数」を意味する
ことを前提として話を進めましょう。

対数に変換するということは、ある数値を
任意の底の値の指数値で表すことを意味します。
具体的に言うと(ここでは常用対数に限定することにしたので)、
ある数値が10(これが常用対数の底の値)の何乗であるのか
ということです。

たとえば、100という数値の常用対数を取ると、
100は10の2乗ですから、「2」となります。
同様に1000は「3」、10000は「4」です。

この...続きを読む


人気Q&Aランキング