はじめまして。
 さて,標記の件ですが,サンプル群が標準正規分布に従うと仮定して点数付けをしているのですが,どうもそのサンプル群が標準正規分布に従っていないため,いびつな点数付けになって困っています。
 そうなると,他の確率分布(カイ2乗分布やt分布など)に従うと思うのですが,サンプル群がどの確率分布に当てはまりが良いかを推定する方法を教えて頂けないでしょうか。また,それが掲載されている本,ホームページ,解析ツールがあれば教えて頂けないでしょうか。
 よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (2件)

パラメトリックな方法を取るためには、分布の推定をしたいですが、それは純粋解析的な方法というよりはある種の仮説推定が手っ取り早いと思います。

大雑把でもいいので、どのようなサンプル群から得たデータかを考えて、その分布を予想するのです。その上でパラメータの推定を最尤法、あるいはモーメント法、もしくは区間推定(正規母集団近似、できなければ精密法)などで予想することができます。

たとえば測定値の平均からのずれなどならば、正規分布に従うと予想できますし、毎時のメール着信数などであればポアッソン分布に従う、あるいは耐久時間などなら指数分布に従う、と予想されます。より一般的なサンプルの場合、これら既存の確率分布のどれにより近いかを想像するのは大変ですが、なんらかの理由付けで確率分布を推定するのは、解析的な方法よりは正確であるようには思います。そして推定したあとはたとえば適合度検定などを行ってみるとよいと思います。

またデータの平均、分散、さらに3次モーメント、4次モーメント(あるいは尖度、歪度)を計算してみて、既存の確率分布のそれと比較する(モーメント法とと同じことですが)、もしくは、実際にサンプルの分布をグラフ化して比較するのも視覚的にわかりやすいかも知れないと思います。エクセルが使えるなら一番てっとり早いと思います。

結構最近出た本ですが、【統計分布ハンドブック】という本はかなり詳しく分布についての辞典です。確率分布の公式集というのが役に立つかも知れません。連続分布ならグラフ化するのがよいですが、グラフ表示ソフトがあれば便利でしょう。お持ちでなければ、googleかyahooで適当な分布で検索されてみれば、どこかのwebページで掲載されていると思います。http://www.math.keio.ac.jp/edu/bookshelf/bookshe …

よく分布の当てはまりを調べるのにχ^2適合度検定などを行ったりしますが、これは「その分布は適当ではない」かどうかを調べる検定ですので、積極的にその分布を支持するものではないです。ですが、よくこういった手法も使われると思うので、予想が出来たら適合度検定を行われるのもよいかと思います。このあたりのことはほとんどすべての統計の本に記述があると思います。

この回答への補足

お書きの回答は大変参考になりました。どうも有難うございます。統計学は大学でかじった程度で、あまり理解していませんので、これを機に勉強しようと思います。
 ただあつかましいんですが、これを自動で計算してくれるようなツールはないでしょうか。サンプル群が30程度あって全部をその方法でやっていたら大変だと思いまして・・・

補足日時:2005/04/22 16:23
    • good
    • 0

回答つきませんね



まず些細なことですが、確認したいので...
> サンプル群が標準正規分布に従うと仮定
このくだりは
「サンプル群が正規分布に従うと仮定し、サンプル平均と標準偏差で正規化」
の意味ですね?
また、点数付けの意味がちょっとよくわからないので、補足をいただけますか?
というのも素人目には、サンプルの分布の性質がわかっているから(点数付けがいびつであると)判断できるのでは?と思えるからです。

さて
サンプルからその確率分布を推定するということですが、手順としてはヒストグラムを描く ことあたりからはじめ、歪度や尖度を求めてみて考えることになります。
その次は、最尤法でパラメータを推定し推定精度のよしあしを評価するか、ノンパラメトリックにナントカしようとするか、という話になってくるかと思います。

この回答への補足

>「サンプル群が正規分布に従うと仮定し、サンプル>平均と標準偏差で正規化」
>の意味ですね?

 その通りです。また、点数付けの方法ですが、正規分布を20%ずつ区切って上から順にランクA、B、C、D、Eと付ける方法をとっています。
 このような点数付けをしますと、例えば、サンプル群が0以上の値しかないのに、ランクEが-10未満になり、ランクEに該当するサンプルが一つもなくなるといった事態が発生します。これに対して「いびつな」という表現をとりました。抽象的な表現ですいませんでした。
 お書きの回答は大変参考になりました。どうも有難うございます。統計学は大学でかじった程度で、あまり理解していませんので、これを機に勉強しようと思います。
 ただあつかましいんですが、これを自動で計算してくれるようなツールはないでしょうか。サンプル群が30程度あって全部をその方法でやっていたら大変だと思いまして・・・

補足日時:2005/04/22 16:00
    • good
    • 0

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Q正規分布とヒストグラムのグラフの書き方

エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。
しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。
具体的に書いていきたいと思います。
正規分布になるとほぼ確信しているデータがあります。
サンプル数は50、平均7.8、標準偏差2.9のデータです。

データ区間 頻度
0       0
1       1
2       1
3       2
4       2
5       5
6       6
7       6
8       6
9       8
10      5
11      2
12      3
13      1
14      2
15      0

というデータです。
そして、データ区間に対応する正規分布の値を
NORMDIST(あるデータ区間の値,平均,標準偏差,FALSE)
を使用して、求めます。
そして、得られた正規分布の値をそれぞれ、サンプル数(50)倍します。
(ここでサンプル数倍するという作業は、NORMDIST(データ,平均,標準偏差,FALSE)で描かれるグラフの面積は1なので、今書きたいヒストグラムとサイズをあわせる…という理解でよろしいのでしょうか?)
上述の度数分布表から棒グラフ→データ系列の書式設定→オプションで棒の間隔を0にすることでヒストグラムを描きました。(分析ツールを用いても良かったのですが)
また、同グラフに新たな系列を増やし、NORMDIST*50によって得られた値を導入し、こちらは、グラフの種類→マーカーの無い線グラフ→データ系列の書式設定→パターン→スムージングを選択することによって、正規分布のグラフを書きます。
以上の作業で、求めていたグラフは書けました。
視覚的に予想通り正規分布のグラフに近いことが分かりました。

さて、ヒストグラムを使用する際によく行われる作業ですが、上述の度数分布表みたいに、データ区間を1刻みにするより、大きくしたほうがデータの性質がより見てとれることがあります。
そのため、ここでも、データ区間を広げ、2刻みにした場合のグラフを描こうと思いました。
度数分布表は以下のようになります。
データ区間 頻度
1       1
3       3
5       7
7       12
9       14
11      7
13      4
15      2
17      0
ここから、前回同様の作業でヒストグラムは容易に描けます。
正規分布のグラフはどのように書けば良いのでしょうか?
前回同様、NORMDIST*50から得られる値を利用しても、ヒストグラムの棒の高さが前回より高いので、全く合いません。
正規分布関数は定数倍しても性質が変わることはないので、実験的に50以外の値を導入してみました。
データ区間が2倍になったから、*50を更に2倍して、*100にしてみようか、という安易な考えのもと、NORMDIST*100を使用したグラフを書いてみました。
すると、ヒストグラムと正規分布の形が視覚的に似て見える、というもっともらしいグラフは得られました。
しかし、安易にNORMDIST*100を導入したことに疑問と不安を覚えます。
このようにして得られてグラフに問題は無いでしょうか。
また、データ区間を変更したとき、NORMDISTを何倍してやると良いなどというのはあるのでしょうか。
数理統計もエクセルも初心者なので、得られたグラフに自信がないのです。
どのように考えればよいのでしょうか。

質問文が非常に長くなってしまい、申し訳無いのですが、わかる方、お教えいただけないでしょうか。
お手数をおかけしますが、よろしくお願いします。

エクセルで正規分布とヒストグラムをひとつのグラフとして表そうとしています。過去の質問や他のページを調べた結果、ある程度書き方を理解して、求めるグラフが書けました。
しかし、ヒストグラムのデータ区間を変えたとき、どのように対応すればよいのか分からなくなりました。
具体的に書いていきたいと思います。
正規分布になるとほぼ確信しているデータがあります。
サンプル数は50、平均7.8、標準偏差2.9のデータです。

データ区間 頻度
0       0
1       1
2      ...続きを読む

Aベストアンサー

以前、同じような質問に回答したことがあるなあと思って、回答履歴を探しました。
http://okwave.jp/qa2887190.html

これの#2の方法で良いかと思います。
ポイントは
× NORMDIST(データ,平均,標準偏差,FALSE)
○ NORMDIST(データ,平均,標準偏差,TRUE)

正規分布は確率分布なので、グラフの面積は「1」つまり全体で100% ということです。
なので、データ数(50)倍します。

3~5のデータ区間なら、その区間に全体の何% 入るかを算出する必要があります。
算出方法は、=NORMDIST(5,・・・,TRUE)-NORMDIST(3,・・・,TRUE)
「~5まで」マイナス「~3まで」で、「3~5」のデータ区間の正規分布の確率が算出できます。
それをデータ数倍すればOKです。

Q確率変数Xが平均0、分散1の標準正規分布に従うとき、|X|の確率密度関

確率変数Xが平均0、分散1の標準正規分布に従うとき、|X|の確率密度関数、平均、分散を求め方と答えを教えてください;;
急ぎの問題で、大変困っておりますので、よろしくお願いします。

Aベストアンサー

fがXの確率密度関数 ⇔ Pr[X < t] = int[-∞,t]f(x)dx

この場合、|X| < 0となることはないから Pr[|X| < 0] = 0
Pr[|X| < 0] = int[-∞,0]g(x)dx = 0 ⇒ g(x) = 0 when x < 0


そのガウス積分は、計算する必要ないですよ。
fは標準正規分布の密度関数ということが分かっていますから。
int[0,∞]x^2g(x)dx = int[-∞,∞]x^2f(x)dx = 1

V[|X|] = 1 - 2/π

QEXCELで成績分布をグラフで作成したいのですが

生徒の成績分布をグラフにしたいのですが、縦軸に点数、横軸に人数分展開し、点数の平均が頂点になる山型のグラフを作成したいのですが、点数をグラフに展開する関数があるのでしょうか。

Aベストアンサー

成績分布のグラフというのはヒストグラムのことでしょうか?
10点台の生徒が○人、20点台の生徒が○人・・・・というのを棒グラフにしたいのではないかと推測しますが、それだと縦軸が人数で、横軸が点数の幅ということになるかと思います。

ヒストグラムは「分析ツール」の中にあります。
まず「ツール」-「アドイン」をクリックし、「分析ツール」と「分析ツール-VBA」にチェックをつけます。
その後「ツール」-「分析ツール」をクリックし、「ヒストグラム」を選択すると、グラフ作成画面が開きます。
やってみてください。

なお、グラフは必ずしも「平均が頂点になる山型」にはならないのでご注意ください。

QX,Yは正規分布(0,1)に従う互いに独立な確率変数とする、このとき、

X,Yは正規分布(0,1)に従う互いに独立な確率変数とする、このとき、X+Y、X/Yの分布は?
  頭悪いです、すみません~

Aベストアンサー

正規分布の再生性は応用上たいへん重要なので,覚えてくださいね。
コーシー分布の密度関数の導出も確認してください。
密度変換の公式などは,大丈夫ですね。

Q正規分布を両対数グラフにプロットする

正規分布している事象があるとして(例えば、身長と個体数)、
身長を横軸、縦軸を累積度数にして両対数グラフ上にプロットすると曲線を描きますよね?
この曲線を一般的に式に表すとどういった式になるのでしょうか。
適当にモデルを作って軽く計算してみたのですが、こんがらがってしまいました・・・・
ベキ乗則に従う事象と正規分布する事象を同じ両対数グラフ上にプロットして、さらに回帰曲線をひきたいのです。

どうかよろしくお願いいたします。

Aベストアンサー

通常の目盛りにはxをプロットする時、
対数目盛にはlog xをプロットすると思えばよいのです。

つまり、対数目盛でxが 1 10 100 1000……と等間隔に続くのは、
通常の目盛りでlog xが0 1 2 3 ……と続くのと等価ということです。

例えば、片対数グラフでは、対数目盛をy軸に取った場合、
(x, log y)をプロットすればよいのです。
ですから、 y = b exp(ax) の時、
log y = ax + log b となり、
傾き a 、切片 b の直線が表示されるわけです。

両対数グラフではどうなるかというと、
(log x, log y) がプロットされるわけですから、
y = b x^a をプロットすると、
log y = a log x + b となり、
やはり傾き a 、切片 b の直線が表示されます。

さて、正規分布を両対数にプロットするとどうなるかを理論的に考えましょう。
y = c exp[-b(x-a)^2] ですから、
両辺対数を取ると、
log y = -b(x-a)^2 + log c
x = exp(log x)ですから、
log y = -b exp(2 log x) -2ab exp(log x) - ba^2 + log c
つまり、指数関数の和という複雑な形になるわけです。

このことから考えて、正規分布する事象を両対数グラフにプロットするのは
あまり上手いやり方ではないと思いますが、いかがでしょうか。

ちなみに、片対数グラフであれば、
y軸を指数関数に取ると、
log y = -b(x-a)^2 + log c となり、
ちゃんと放物線が出てきます。
ただ、逆にこの場合は冪乗が汚い形になりますが。

通常の目盛りにはxをプロットする時、
対数目盛にはlog xをプロットすると思えばよいのです。

つまり、対数目盛でxが 1 10 100 1000……と等間隔に続くのは、
通常の目盛りでlog xが0 1 2 3 ……と続くのと等価ということです。

例えば、片対数グラフでは、対数目盛をy軸に取った場合、
(x, log y)をプロットすればよいのです。
ですから、 y = b exp(ax) の時、
log y = ax + log b となり、
傾き a 、切片 b の直線が表示されるわけです。

両対数グラフではどうなるかというと、
(log x, log y) が...続きを読む

Q正規分布に従わないと標準偏差の算出は向かないでしょうか?

正規分布に従うとは、平均値の分布が多いという意味でしょうか?

日々変わるデータの点数が凸のような分布でなく、平均値付近が少ない
凹のようなデータの集合だと、標準偏差を算出し正規分布を使い
30%以下の人や70%以上の人を毎日抽出するような用途には
向かないのでしょうか?

Aベストアンサー

まず、正規分布に従うとは、「分布が正規分布のグラフと同じ形をする事」をいいます。
そのため、平均辺りが多くても△のような分布グラフだったり、
左右が対象でないと、「正規分布に従う」とは言いません。

そのため、試験の成績などは、「正規分布に近い」だけであって、
「正規分布に従っている」のではありません。

つまり、「偏差値」を使うべきかどうかは、偏差値の「分かりやすさ」と、
その分布が正規分布に近いかどうかの判断になります。



例えば、凹のようなデータでも、両端がなだらかになっていれば、そこそこ偏差値も使えます。

逆に、両端が崖のようになっていると、偏差値を使うのは控えた方がいいでしょう。
(たとえば、30点や、80点の人は多いけど、29点以下や、81点以上がいないなど)

また、分布が左右対称でない場合も、使用をやめた方がいいでしょう。
平均値と、中央値(順位が真ん中の人の値)が離れると、偏差値の感覚的な値とは
ずれてきます。



いずれにしても、ある程度のデータがあるのであれば、そのデータで
やってみるのが一番です。

出るべき結果と大きなずれがなければ、分かりやすいので使ってしまっても
いいのではないでしょうか。

試験の結果なんかでも、山が二つあったり、左右に偏っている事なんて
よくあります。

それでも、偏差値が、それなりに機能していますから、まずはやってみるのが
いいのではないかと思います。

まず、正規分布に従うとは、「分布が正規分布のグラフと同じ形をする事」をいいます。
そのため、平均辺りが多くても△のような分布グラフだったり、
左右が対象でないと、「正規分布に従う」とは言いません。

そのため、試験の成績などは、「正規分布に近い」だけであって、
「正規分布に従っている」のではありません。

つまり、「偏差値」を使うべきかどうかは、偏差値の「分かりやすさ」と、
その分布が正規分布に近いかどうかの判断になります。



例えば、凹のようなデータでも、両端がなだら...続きを読む

QTOEIC試験のスコア分布のグラフ化

TOEIC試験は、平均点は数値でわかるのですが、スコアの分布状態を
知りたく、スコアの分布グラフ、または、ヒストグラムを書ける
かたがおられましたら、描画欲しく。

Aベストアンサー

グラフのことは良く分かりませんが、
TOEIC公式サイトに資料集がありますよ。
http://www.toeic.or.jp/toeic/data/document.html

一番上の「TOEICテスト DATA&ANALYSIS」pdf
を見てみてください。

個人的な参考にしたいなら良いですが、
どこかに発表したりしたいのなら、このまま写して勝手に使うとまずいのでしょうね?
出典を書けばいいんでしょうかね。

Q要素を並べ替えたベクトルの内積が,正規分布に従う原因について

以下の試行を考えます。
(1)長さNのベクトルX, Yを適当に作成する。
(2)Yの要素をランダムに並べ替え,そのベクトルをY'とする。
(3)内積(X, Y')を計算する。

Nが約20以上の状況で,この試行を1000~10000回程度繰り返すと,得られる内積は,X, Yの要素の分布に関わらず,ほぼ正規分布に従う結果となりました。

この現象の原因を解析的に(式で)理解したいと考えていますが,糸口がつかめない状況です。
何かご指摘を頂ければ幸いです。

Aベストアンサー

えーと、まず具体的にやっていることがよくわかってないんですが、
(2)の並び替えるっていう操作は本質的に意味のあることですか?
つまり、単純に、長さNのベクトルX,Yをランダムに作成してその内積を取る、っていうのと、(1)(2)(3)は異なるものなんですか?
暗黙のうちに、X,Yの各要素は独立同分布(i.i.d.)だと思ってたんですがそうではない?
i.i.d.だとすれば、<式による考察>に書いてある式であってそうです。

数値実験
>Aは平均がmean(x)*mean(y), 分散が(var(x)*var(y))/N
この数値実験って具体的にどんな操作をしてますか?
例えば、X,Yの平均が1で、Xの分散が0、Yの分散が1のとき、積XYの分散は1になると思うのですがこの式だとならないですね。ということは、上で思っていた前提とは異なる、なんかの操作をしたってことなんでしょうけど。

Qエクセルでデーター分布のグラフ作成

ある生データをもとにデーター分布のグラフ(ヒストグラム?)を作成したいと思っています。
エクセルで作成しますので、操作方法などを分かりやすくご教授願います。
また、このグラフに規格値(Max&Min)も入れたいと思っています。これもエクセルで出来るのでしょうか?

Aベストアンサー

まず、「ツール」→「アドイン」で「分析ツール」にチェックを入れて分析ツールが使えるようにします。
次に、ヒストグラムの区間をどこかのセルに作っておきます。
(例えばデータの範囲が5~20で区間を2づつにしたいときは2,4,6,…16,18,20,22と連続したセルにデータを打ち込んでおきます)
分析ツールが使えるようになったら、「ツール」→「分析ツール」から「ヒストグラム」を選択します。
「入力範囲」には元データの範囲を指定します。
「データ区間」は先に作った区間の範囲を指定します。
「出力先」を指定し「グラフ作成」にチェックを入れて「OK」を押すとヒストグラムが出力されます。
作成されたヒストグラムは間が開いているので、グラフをダブルクリックして、データ系列の書式設定を出し、「オプション」の「棒の間隔」をゼロにします。
平均やMAX,MIN,標準偏差などは、「ツール」→「分析ツール」から「基本統計量」を選択し、元データの範囲を入れ、出力先を入れ、「統計情報」にチェックを入れて「OK」を押すと表示されます。
規格値を入れる機能はありませんがグラフの中に図形で一般的な「線」を書き込むことはできます。ただしこの線はモニター表示と印刷では場所がわずかにずれる事があるため確認が必要です。

まず、「ツール」→「アドイン」で「分析ツール」にチェックを入れて分析ツールが使えるようにします。
次に、ヒストグラムの区間をどこかのセルに作っておきます。
(例えばデータの範囲が5~20で区間を2づつにしたいときは2,4,6,…16,18,20,22と連続したセルにデータを打ち込んでおきます)
分析ツールが使えるようになったら、「ツール」→「分析ツール」から「ヒストグラム」を選択します。
「入力範囲」には元データの範囲を指定します。
「データ区間」は先に作った区間の範囲を指定します。
「出力先」を...続きを読む

Q標準正規分布の和の分布

標準正規分布の和の分布を求めようとしています。
ですが、答えが綺麗にならなかった為、これでいいのか自信がありません。
ですので、間違いがあれば指摘して頂けないでしょうか?宜しくお願い致します。
http://upup.bz/j/my17603pDRYt6O4n3vI9_BQ.jpg

(※細かい問題設定、私が考えた内容は上記の画像にまとめました。
なお、教えてgoo 上のアップロードですと圧縮で、書いた内容が見えなくなった為、外部サイトを使用)

分布は正規分布のまま、期待値、分散は各々X、Yの和になる気がするのですが。。。

Aベストアンサー

ほへ? あってるんだけど... 「答えが綺麗にならなかった」ってのは, 具体的にはどの辺が「綺麗じゃない」と思ったんでしょうか?

もちろん結果としては「分布は正規分布のまま、期待値、分散は各々X、Yの和になる」ので, そこから逆に考えてもいいけど.


人気Q&Aランキング