クラスター分析でのクラスター数について

Question

クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。
　そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、

BealeのF値（Beale’s Pseudo F statistic）
２つのクラスター結果C1とC2（クラスター数はそれぞれc1,c2でc1>c2）があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1／W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数
F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の（例えば）5%点。

http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clustering.pdf

このように書かれていました。わからない点は、W1,W2の求め方です。
　私の考えでは、W１において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか？
　分析対象は、個体数２２、変数１００となっています。

solla · Accepted Answer

> どのように考えたらいいのでしょうか？

先の回答そのままです。
クラスター k に属する個体 Xi(k), i=1,…,22 とクラスター k の重心 m(k)がそれぞれ100次元のベクトルになりますから、その差のノルム || Xi(k) - m(k) || （ユークリッド距離に相当）が偏差になりますので、偏差の2乗 || Xi(k) - m(k) ||^2 を全ての i について和をとればいいのではないかと思います。文字通り偏差平方和です。具体的な計算はベクトルの成分を書いてみれば解るかと思います。

solla · Answer

クラスター分析はそれほど使ったことがないのであまり自信はありませんが…。

> k1=c1-2/p、k2=c2-2/p

は、

k1=c1^(-2/p), k2=c2^(-2/p)

の誤りではないかと思います。
そして

> それを用いて変数毎にクラスター間で偏差平方和をして、

ではなく、各クラスター内での偏差平方和をとるのではないかと…。
つまり、クラスター k に属する個体 Xi(k) とクラスター k の重心 m(k) とのユークリッド距離の2乗 || Xi(k) - m(k) ||^2 を全ての個体について合計するのだと思います。


> 個体数２２、変数１００となっています。

クラスター分析では必ずしも誤りとは言えないと思いますが、100個の変数を使っていても、結局個体は21次元の部分空間に布置されており、79の冗長な次元を扱うことになるので、主成分分析などで変数の余分な次元を減らしたほうがいいのかもしれません（この点はもっと自信が無いので参考程度に…）。

クラスター分析でのクラスター数について

> どのように考えたらいいのでしょうか？

クラスター分析はそれほど使ったことがないのであまり自信はありませんが…。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング