3次元混合正規分布のパラメータ推定

Question

3次元混合正規分布のパラメータ推定

標本（Ｘ，Ｙ，Ｚ，値）が大量にあり、これを3次元の混合正規分布で近似しようとしています。
現在、平均や分散などのパラメータの算出をＥＭアルゴリズムを用いて行おうと考えています。
いろいろ調べて勉強してみましたが、標本をどのように使えばいいか理解することができません。

この標本はどのような形で式につかえばよいでしょうか？
そもそもＥＭアルゴリズムを用いてこの問題を解くことができるのでしょうか？
また、この標本をもとにパラメータを決定する代替方法があれば、教えていただけると助かります。
説明不足な点があるかもしれませんが、よろしくお願いします。

kzkz_tool · Accepted Answer

おはようございます。

1対1というのは、(X軸, Y軸)＝(年, 値)、(月, 値)、(時間, 値)ということです。
値を推定したいのですよね？？
年、月、時間が値に及ぼす影響をそれぞれ単回帰的に検討してみるということです。
それでそれぞれの関係をベースに全部の因子をいれた式を検討してみては？

研究のご成功を祈ります。

kzkz_tool · Answer

こんにちは。

とりあえず、構造を把握するために1対1で関数を当てはめてみては如何でしょう？
いきなり複雑な方へ行くと構造をうまくつかめないかもしれません。
2峰性の関数だったら4次関数とか5次関数、あるいは三角関数をとりあえず当てはめてみるとか。。
例：W=a0+a1X+a2X^2+a3X^3+a4X^4+ε
これだと、重回帰でソフト使えばパッと出ますよね。
うまく当てはまるかはデータを見てないので何ともいえませんが。。
これで各変数を検討してから組み合わせてモデルを検討していっても良いかもしれません。

しかし、相談者さんのモチベーションとして、経時的な変動を追って、予測、傾向分析等を行いたいのであれば正確には時系列解析を用いる必要があるかもしれません。
これに関しては、さらに複雑なのでちょっとした勉強が必要だと思います。。
時系列は門外漢なのでうまく説明できませんが、初等テキストをご覧になってみては如何でしょう？

以上、とり急ぎ。

kzkz_tool · Answer

おはようございます。

これは。。混合正規分布ではないですね。。
単なる関数関係です。
分布というのはそもそもランダム変数の生起確率の密度を表すものであって、ヒストグラムのように、横軸は見たい項目、縦軸は見たい項目の度数(密度)で表した時の形状を見ます。
この場合は横軸も縦軸も異なった項目ですので、これは両項目の関数関係を見ているに過ぎません。

X、Y、Zの分布は本質的な問題にはならないというのはわかりづらいですよね。
そもそも、回帰の説明変数にランダム性を規定しないではないというのは、相談者さんの指定された説明変数(年、月、時間)は「データをとってみたらたまたま2009年だった」という乱数ではなく、制御されている因子のはずです。さらに、年、月、時間を指定してとってみたら項目はこういう値になる、というのが関数関係です。しかし、年、月、時間を指定して項目のデータをとってみても必ず関数上に乗った値が出るわけでなく、ランダム性(あるいは未知の因子による影響)が付与されます。これが誤差分布です。すなわち、この誤差分布は応答変数に関連する分布ということです。
説明変数に関しても、コレステロール(応答)を見るためにたまたま被験者を集めたら○○歳だった、というランダム性を考慮する場合もあり、説明変数、応答変数のいずれにもランダム性を考慮するモデルを適用することもありますが、稀だと思います。

今回の回帰式の導出のモチベーションは月の間のデータをとっていないところを補完したいということですか？
無理やり補完するのであれば、4次関数や5次関数を用いればできるかもしれませんが、データを全く取っていない領域の説明変数について式で項目の値を補完することは、外挿とまでは言わないまでも、推定値の妥当性が低くなる恐れのあることを留意すべきです。

また、その部分の補完を意図しないのであれば、月の真ん中でデータを割って二つのモデルを当てはめることも考えられます。

以上、とり急ぎ。

kzkz_tool · Answer

こんにちは。

プロットというのはどういうプロットでしょうか？
X、Y、Zのそれぞれのヒストグラムを描いてみて、明らかな峰が二つ存在すれば混合正規分布でモデル化する理由にはなります。

しかしながら、回帰問題ですと、X、Y、Zの分布は本質的な問題にはなりません。
回帰式を書くと(「値」をWとします)
W＝f(X,Y,Z)＋ε
となり、X,Y,Zを固定したときの誤差項εの分布が問題になります。
すなわち、X,Y,Zは定数扱いで、これを固定した際のWのバラつきをモデル化するのです。
この分布が正規分布であればより簡単な回帰問題に帰着します。

まずどのような関数を当てはめるかは、始めは交互作用を考えずにWとX、WとY、WとZの関係を図示し(散布図で良いでしょう)その関係性を表すのにどのような関数が良いかを考えます。
たとえば比例関係であれば
W=a+bX+cY+dZ+ε
という重回帰式になるでしょうし、Xは比例関係でY、Zは二次関数(中心部が高いということはもしやこれかな？)であれば
W=a+bX+c1Y+c2Y^2+d1Z^2+d2Z^2+ε
となります。このような式も重回帰の一種で多項回帰と呼ばれます。
そこにX×Yの項とかを含めて交互作用を検討することも出来ます。
色々なモデルを当てはめてモデル選択基準のAICなどで、どの変数を入れるかを選択すれば良いと思います。

もちろんスプラインでも良いと思いますが推定不能だったのでしょうか。

以上、ゴチャゴチャとした回答でスミマセン。

kzkz_tool · Answer

こんばんわ。

標本（Ｘ，Ｙ，Ｚ，値）というのはどういうことでしょう？
3次元分布ですと(X, Y, Z)の組(たとえば身長、体重、年齢)がn個あり、X、Y、Zのそれぞれが○○分布に従っているとき、(X, Y, Z)は3次元○○分布に従うといいます。因みにX、Y、Zがそれぞれ独立であればわざわざ3次元分布で扱う必要はありません。
もし3次元混合正規分布で扱うならばEMアルゴリズムということになるのでしょうが、正直、結構複雑になると思いますし、場合によっては解けないかと思います(多分
他のモデルを当てはめることは考えられませんか？

一つ気になる点は、もしかして相談者さんの標本では、X,Y,Zが座標を表すのではないですか？違ってたらすみません。
この場合は、値＝f(X, Y, Z)という関数で表され、これは回帰問題ということになるでしょう。

以上、データ対をもう少し詳しく書いていただけるとシチュエーションを特定しやすいですのでお願いします

3次元混合正規分布のパラメータ推定

おはようございます。

こんにちは。

この回答への補足

おはようございます。

この回答への補足

こんにちは。

この回答への補足

こんばんわ。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング