適合度検定について

Question

適合度検定について教えてください
測定結果の分布がある種の確立密度関数に従うかどうかをカイ二乗検定で調べます。測定値の度数と理論度数の比較です。このとき確立密度関数の母数によって、検定時の自由度が変わるといわれたのですが。
母数と自由度の関係を教えてください。
たとえば
p(x)=(x/a)・exp｛-x^2/(2a)｝：2aがｘの2乗平均
で示されるレイレイ分布の場合はどうなるのでしょうか。
いろいろ文献を調べたのですがわかりません。統計に関しては素人です、よろしく
お願いします。

stomachman · Accepted Answer

> 最初具体的な確率密度関数の型（例えば正規分布とかレイリー分布とか）はわかりません。
>したがって母数は未知となります。 
この時点では「分布が未知」なんですね。

　次に、帰無仮説H1「このデータは母数aのレイリー分布に従う」を立てる。これを一旦信じる。ここで初めて分布の型が決まり、従って、母数の自由度は１に決定。そして、分布が一番データに良く合うように（数値計算で）a=a0を決めてやる。fittingと言います。これで分布が決定。この段階で帰無仮説はH2「このデータは母数a0のレイリー分布に従う」になっており、自由度は１減っている。だからこの仮説H2を検定するには、自由度は(ｋ-2)にしなくちゃいけません。
　で、検定してみたらH2がアキラカに棄却されたとしましょう。つまりこの分布じゃないのが確定。

　では、帰無仮説H3「このデータは母数m, σ^2の正規分布に従う」を立てる。母数の自由度は２ですね。これをfittingしてm=m0, σ=σ0を得る。これで分布が決定。帰無仮説はH4「このデータは母数m0, σ0^2の正規分布に従う」になっており、自由度は2減っている。この仮説H4を検定するには、自由度は(ｋ-3)にしなくちゃいけません。
 で、今度は棄却されなかったとする。でも、

「だからこのデータは正規分布(m0, σ0^2)だ。」なんて結論しちゃいけません。帰無仮説は、棄却されないときは「何も言えない」。つまり「仮説H４はデータとはっきりした矛盾を示さない」という事が分かっただけです。（σの真値がσ0より0.1%大きくてもH4は偽なんですよ。）

　時系列データを分布として検定するというのは重要ですね。理論的に予想される分布と比較する訳ですね。この場合線形に近いシステムのようだから、予測するには、信号処理分野の理論、特にinputが分かっていればフーリエ変換などによるフィルター理論で、確率過程とするなら定常過程の理論が旨く行くだろうと思います。なお非線形性が強い場合（振幅が大きいなど）はひょっとするとカオスの理論を使うことになるかな？と思います。

stomachman · Answer

測定値の母数、度数と仰るからには離散分布の話、と思ったらレイリー分布ですか。これはどういうことかな？xを適当な区間に分けて、その中に入ったサンプルの数を数えた、という意味でしょうか？
　その場合、一つの区間の度数が最低でも数個以上になるように区分けをします（こうしないとχ二乗検定が使えません）。k個に分けるとしましょう。各区間は同じ幅である必要はありません。たとえば区切りをx[1]=0,x[2],....,x[k],x[k+1]=∞とし、j番目の区間を[x[j], x[j+1])とします。
帰無仮説「N個のサンプルが確率密度関数fの分布からランダムに採られた」を検定できます。具体的には区間jの理論度数
m[j] = N integral {x=x[j]～x[j+1]} f(x) dx
を計算し、実測した度数n[j]と比べます。すなわち
χ^2 = Σ{(n[j]-m[j])^2}/m[j]　　（Σはj=1,2,....,kについて取る）
は自由度(k-1)のχ二乗分布で近似できる。

　さて、母数とは何か。レイリー分布
p(x)=(x/a)・exp｛-x^2/(2a)｝　(x≧0)
の場合、aが母数です。つまりこの確率密度関数（確立じゃないですヨ）のパラメータのこと。これを決めると初めて、具体的な分布の形が決まる訳です。
　「aが違えば、分布が違い、同じサンプル数Nであっても区間の設定の仕方が違ってくる。従って、区間の数kも（従って自由度も）変わりうるし、理論度数m[j]も違う。」ということですね。

　まずは良い教科書を手に入れては如何でしょう。ハンドブック的なものだけでなく、きちんとした教科書を持っていると、こういう時に便利ですよ。

stomachman · Answer

とりあえず、自由度の概念については下記URLを。

N個のサンプル、という制約条件があるので、度数n[1], n[2], ..... , n[k-1]を決めたらあと一つは決まってしまう。だから自由度は(k-1)である。という事です。

また
> 確率密度関数に当てはまるかを調べるときは（ｋ-1-母数の数）が自由度
というのは、ちょっと間違い。そうじゃなくて、
　「確率密度関数の型（例えば正規分布とかレイリー分布とか）は仮定しているがその母数（パラメータ）のうちのr個の値が未知である」という場合に、測定した度数になるべく旨く合うようにr個の母数を推定し、その上で、検定を行う、という時には、つまり辻褄が一番合うようにr個の自由度（度数のデータ）を「消費」しちゃったので、残っている自由度はr個減る。それで、この場合の
χ^2 = Σ{(n[j]-m[j])^2}/m[j] 
は自由度(k-1-r)のχ二乗分布で近似できる、という事になります。

参考URL：http://oshiete1.goo.ne.jp/kotaeru.php3?q=17226

stomachman · Answer

fittingをする結果として自由度を犠牲にする訳ですから、ばっちりfittingやって良いです。fittingしてパラメータを最適化したモデルは、誰が計算しても再現する。これこそが客観的なんじゃありませんか。
　最急降下法は余りうまい方法とは言えませんが、探すパラメータの数が少なければ差し支えないのかな？

　ストレンジ・アトラクタ。やっぱり出てきましたか。最終的にアトラクタの再構成が出来ると面白いですね。頑張ってください。

stomachman · Answer

下記ご参照下さい。

参考URL：http://oshiete1.goo.ne.jp/kotaeru.php3?q=24627,http://oshiete1.goo.ne.jp/kotaeru.php3?q=8277

適合度検定について

測定値の母数、度数と仰るからには離散分布の話、と思ったらレイリー分布ですか。

この回答への補足

とりあえず、自由度の概念については下記URLを。

この回答への補足

> 最初具体的な確率密度関数の型（例えば正規分布とかレイリー分布とか）はわかりません。

fittingをする結果として自由度を犠牲にする訳ですから、ばっちりfittingやって良いです。

下記ご参照下さい。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　測定値の母数、度数と仰るからには離散分布の話、と思ったらレイリー分布ですか。

　fittingをする結果として自由度を犠牲にする訳ですから、ばっちりfittingやって良いです。