書籍、続・わかりやすいパターン認識の10章p207~208にある凸クラスタリングの実験をpythonで実装して実際にやってみました。その結果書籍の内容と少し違った結果になったところとかもあり、その対応の仕方で疑問の残ったところもあるので質問させていただきました。
まず、図10.6のiter=0の500個の散布図は、pythonのnumpy.random.multivate_normal()関数を使って似たようなものを作りました。また、πiで、(0.001/samples)以下のものは強制的に0にして削除しながら、その都度、式(10.37)で再正規化を行いました。(samplesはπi != 0のπiの個数で500から徐々に減っていきます。)初期条件などは、書籍のものに合わせて行っています。
この結果、私のやってみたものでは、iter=4000で、12クラスタが残りました。これらの点は、5クラスタの中の3クラスタが中心付近に複数の点があります。書籍ではこの段階で5個のクラスタに収束したと書かれています。(また図10.6のiter=4000で3つ円の輪郭線がその他の2つのものより太く描かれているようですが、これはどういう意味なのでしょうか?)12クラスタ残った後の処理をどのようにしたら一番良いものか分かりかねています。ちなみに、σやiterの回数や上の閾値を色々変えてやってみたのですが、私のものでは、5クラスタには収束しませんでした。後この状態で、πi > 0.01の選別を行うと、6クラスタになりました。(真ん中のものだけ中心付近に2点残りました。πi = 0.1701 と πi = 0.0339 で足すと0.2に近い値になり、2点の重心も平均すると(0, 0)に近い値になります。
書籍に書かれているような希望するクラスタ数に収束しなかった場合のその後の処理の仕方について、詳しい方がいられたら、御教示願えればと思います。(他の書籍でも色々調べてみたのですが、この部分に関する記述は見つけることができませんでした。よろしくお願い致します。)

A 回答 (1件)

なにも併合処理しない凸クラスタリングは、そうなりますよ。


書籍で5つにクラスタリングできたというのも、あきらかに併合すべきクラスタを併合すると5つになった、ということです。

凸クラスタリングは、標準偏差σが全クラスタで共通と仮定しているわけですが、
これは、言うなれば解像度がσで固定の虫眼鏡を使って世界を見ることにします、といっているわけで、
原理的に、0.3σ程度以下の2点はそもそも区別できないです。

なんで、単純に、0.3σ程度より近い距離にある2つのクラスタは、併合してしまえばよいです。
    • good
    • 0
この回答へのお礼

そうですよね、
併合したクラスタの正規分布の輪郭線を太線で描いているんですよね。
(併合しなかったものは、普通の線で描いている。)
これですっきりしました。
ありがとうございました。

お礼日時:2017/05/18 04:50

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aと関連する良く見られている質問

Q数学Bの問題です。 円に内接する四角形ABCDがあり、AB=1、BC=√5、CD=2√3、DA=4で

数学Bの問題です。

円に内接する四角形ABCDがあり、AB=1、BC=√5、CD=2√3、DA=4である。

対角線ACの長さを求めると、AC=□√85+□√51/17である。(※□には数字が入ります。)


ちなみに、この問題に至るまでに、対角線BDと角BAD、四角形ABCDの面積S、sinBACを求めています。

少し長いですが、この問題だけどうしても解けません。解説お願いします、、

Aベストアンサー

対角線BDの長さが解ったならば、もう一つの対角線ACは「トレミーの定理」で求められませんか。

トレミーの定理・・・円に内接する四角形 ABCD において、AB×CD+AD×BC=AC×BD が成り立つという幾何学の定理。

Q残差 偏差 誤差

定義として

残差=測定値-試料平均
偏差=測定値-母平均
誤差=測定値-真値

ですが、いつもごっちゃになって
どれがどれだか分からなくなってしまいます。
何か良い覚え方はありませんでしょうか?

Aベストアンサー

そのような「一般化された定義」は特にないと思います。どこから持ってきたものですか?

 統計学では、『「誤差」は知ることができず、その推定値を「残差」と呼ぶ』などと説明されますが、それだと現実社会で使っている「誤差」とは違ったものになります。
↓ たとえばこちら。
http://www012.upp.so-net.ne.jp/doi/math/anova/model_and_error.pdf

 一般には「真値」や「母平均」は分からないので、「測定値-試料平均」や「測定値-母平均」も「誤差」と呼んだり、「偏差」と呼んだりすると思います。
 また、一般に「偏差」といえば、何でもよいので「何かと何かの差」です。下記のように「1981〜2010年の30年平均気温との偏差を、年平均気温偏差と呼ぶ」というように特別に定義して「○○偏差」といった使い方をします。
http://www.data.jma.go.jp/cpdinfo/temp/list/an_jpn.html

 このように「残差」「偏差」「誤差」は、一般には広範囲な概念を示す「一般的な用語」なので、限られた場面で特別な意味で使うには、その都度「このように呼ぶ」と定義して使う必要があります。その場その場で、その「定義」を確認する必要があるので、「覚える」必要はありません。
 逆に、「どこでも同じ定義で通用する」と勝手に思いこんで無定義で使うと、相互に誤解を生じる可能性もありますので要注意です。

そのような「一般化された定義」は特にないと思います。どこから持ってきたものですか?

 統計学では、『「誤差」は知ることができず、その推定値を「残差」と呼ぶ』などと説明されますが、それだと現実社会で使っている「誤差」とは違ったものになります。
↓ たとえばこちら。
http://www012.upp.so-net.ne.jp/doi/math/anova/model_and_error.pdf

 一般には「真値」や「母平均」は分からないので、「測定値-試料平均」や「測定値-母平均」も「誤差」と呼んだり、「偏差」と呼んだりすると思います。
 ま...続きを読む

Q数学の問題です。 A=4n+6/n-3の値が整数となるような整数nの最大値を求めよ。また、Aの最大値

数学の問題です。

A=4n+6/n-3の値が整数となるような整数nの最大値を求めよ。また、Aの最大値も求めよ。

解説お願いしたいです。。

Aベストアンサー

A=(4n+6)/(n-3)とのことですので、先ほどの修正含め説明します。
nに注目すると4nをnで割るので、
(4n+6)=4(n-3)+18と変形します。
つまり、4余り18と表現できます。

Aが整数となるので、18はn-3の倍数です。
18の約数は1,2,3,6,9,18です。
n-3はこれら6個に±を付けた12個に絞られます。

よってnが最大となるのは18+3で21です。

また、Aが最大となるのは18/(n-3)が最大となる時なので、n-3=1
よってn=4
この時A=22/1=22です。

Qベイズ統計学とは結果から原因の確率を調べるもの?

ベイズ統計学とは結果から原因の確率を調べるものですよね?
つまり、通常の統計学とは逆方向の統計学というものみたいな感じです

普通の人の発想の逆で、ベイズってすごいなと思いました
まさに天才ですよね

ベイズ統計学を活用すれば、
人材育成法などにも応用できそうですよね

Aベストアンサー

>普通の人の発想の逆で、ベイズってすごいなと思いました
>まさに天才ですよね
トーマス・ベイズ自身は、「ベイズの定理」の発案者というだけで、20世紀になってからできた「ベイズ統計学」の概念とは関係がないです。
ベイズ統計学は特定の1人の発案ではなくて、何人かが協力して生み出しました。
ブルーノ・デ・フィネッティとか、レオナルド・サヴェージとか、エイブラハム・ウォールドとか、ハロルド・ジェフリーズ、デニース・リンドリーとか、、でしょうか。


このカテゴリの人気Q&Aランキング

おすすめ情報