映画のエンドロール観る派?観ない派?

クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。
 そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、

BealeのF値(Beale’s Pseudo F statistic)
2つのクラスター結果C1とC2(クラスター数はそれぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数
F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の(例えば)5%点。

http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clus …

このように書かれていました。わからない点は、W1,W2の求め方です。
 私の考えでは、W1において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか?
 分析対象は、個体数22、変数100となっています。

A 回答 (2件)

> どのように考えたらいいのでしょうか?



先の回答そのままです。
クラスター k に属する個体 Xi(k), i=1,…,22 とクラスター k の重心 m(k)がそれぞれ100次元のベクトルになりますから、その差のノルム || Xi(k) - m(k) || (ユークリッド距離に相当)が偏差になりますので、偏差の2乗 || Xi(k) - m(k) ||^2 を全ての i について和をとればいいのではないかと思います。文字通り偏差平方和です。具体的な計算はベクトルの成分を書いてみれば解るかと思います。
    • good
    • 0

クラスター分析はそれほど使ったことがないのであまり自信はありませんが…。



> k1=c1-2/p、k2=c2-2/p

は、

k1=c1^(-2/p), k2=c2^(-2/p)

の誤りではないかと思います。
そして

> それを用いて変数毎にクラスター間で偏差平方和をして、

ではなく、各クラスター内での偏差平方和をとるのではないかと…。
つまり、クラスター k に属する個体 Xi(k) とクラスター k の重心 m(k) とのユークリッド距離の2乗 || Xi(k) - m(k) ||^2 を全ての個体について合計するのだと思います。


> 個体数22、変数100となっています。

クラスター分析では必ずしも誤りとは言えないと思いますが、100個の変数を使っていても、結局個体は21次元の部分空間に布置されており、79の冗長な次元を扱うことになるので、主成分分析などで変数の余分な次元を減らしたほうがいいのかもしれません(この点はもっと自信が無いので参考程度に…)。

この回答への補足

ご回答ありがとうございます。

 1・3つ目については、よくわかりました。

 すいませんが2つ目について、再度お伺い致します。あの後、よく考えて、sollaさんのように考えたのですが、個々のクラスターでユークリッド距離(偏差平方和)について求め、その後が解りません。その数値を合計するのか平均を出すのか、またユークリッド距離を出すのか解りません。どのように考えたらいいのでしょうか?

補足日時:2005/09/21 10:59
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報