クラスター分析の初心者です。クラスター数をどうするか、何個に分類するか迷っています。これまでの質問をみていると主観的に分けたらいいと書かれていますが、なにか統計的に示したいと考えています。
そこであるHPからBealeのF値のやり方が載ってました。これを用いたいと思うのですがうまくいきません。すいませんが詳しい方教えてください。そのHPには、
BealeのF値(Beale’s Pseudo F statistic)
2つのクラスター結果C1とC2(クラスター数はそれぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、n=全個体数、k1=c1-2/p、k2=c2-2/p、p=変数の数
F*>FcritならばC1を採択。FcritはF(k2(n-c2)-k1(nc1),k1(n-c1))のF分布の(例えば)5%点。
http://okabe.t.u-tokyo.ac.jp/okabelab/asami/clus …
このように書かれていました。わからない点は、W1,W2の求め方です。
私の考えでは、W1において分かれている個々のクラスター内で変数毎に平均値を求め、それを用いて変数毎にクラスター間で偏差平方和をして、変数分合計を出すと考えています。そうすると私がしたクラスター分析ではF値がマイナスになってしまいます。この考え方は間違っているのでしょうか?
分析対象は、個体数22、変数100となっています。
No.2ベストアンサー
- 回答日時:
> どのように考えたらいいのでしょうか?
先の回答そのままです。
クラスター k に属する個体 Xi(k), i=1,…,22 とクラスター k の重心 m(k)がそれぞれ100次元のベクトルになりますから、その差のノルム || Xi(k) - m(k) || (ユークリッド距離に相当)が偏差になりますので、偏差の2乗 || Xi(k) - m(k) ||^2 を全ての i について和をとればいいのではないかと思います。文字通り偏差平方和です。具体的な計算はベクトルの成分を書いてみれば解るかと思います。
No.1
- 回答日時:
クラスター分析はそれほど使ったことがないのであまり自信はありませんが…。
> k1=c1-2/p、k2=c2-2/p
は、
k1=c1^(-2/p), k2=c2^(-2/p)
の誤りではないかと思います。
そして
> それを用いて変数毎にクラスター間で偏差平方和をして、
ではなく、各クラスター内での偏差平方和をとるのではないかと…。
つまり、クラスター k に属する個体 Xi(k) とクラスター k の重心 m(k) とのユークリッド距離の2乗 || Xi(k) - m(k) ||^2 を全ての個体について合計するのだと思います。
> 個体数22、変数100となっています。
クラスター分析では必ずしも誤りとは言えないと思いますが、100個の変数を使っていても、結局個体は21次元の部分空間に布置されており、79の冗長な次元を扱うことになるので、主成分分析などで変数の余分な次元を減らしたほうがいいのかもしれません(この点はもっと自信が無いので参考程度に…)。
この回答への補足
ご回答ありがとうございます。
1・3つ目については、よくわかりました。
すいませんが2つ目について、再度お伺い致します。あの後、よく考えて、sollaさんのように考えたのですが、個々のクラスターでユークリッド距離(偏差平方和)について求め、その後が解りません。その数値を合計するのか平均を出すのか、またユークリッド距離を出すのか解りません。どのように考えたらいいのでしょうか?
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
標準偏差
-
偏差値60の人と偏差値50の人が...
-
幾何標準偏差の求め方
-
社会人の偏差値の調べ方
-
中学1.2年で5教科の合計点が350...
-
偏差値から順位を求めるには
-
今日数学のテストが返ってきて ...
-
指原莉乃さんは顔面偏差値いく...
-
テスト問題の項目分析の弁別指...
-
平均年齢の表記方法(統計学的に)
-
パーセンテージのバラツキを表...
-
偏差値の求め方(逆の場合)
-
加重平均偏差値 とは、どんな偏...
-
日本人の平均顔面偏差値はどれ...
-
標準偏差を求める際のデータ数...
-
安全在庫=安全係数×√(リードタ...
-
高校偏差値67ってどのくらい字...
-
5段階評価のつけ方について
-
確率
-
偏差値
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
標準偏差
-
偏差値60の人と偏差値50の人が...
-
社会人の偏差値の調べ方
-
幾何標準偏差の求め方
-
(1)で分散を求める時、解答では...
-
Excelで近似式の標準偏差を算出...
-
偏差値から順位を求めるには
-
顔面偏差値100点満点中何点ぐら...
-
標準偏差値が合わない
-
高校偏差値67ってどのくらい字...
-
パーセンテージのバラツキを表...
-
なぜ共分散はSxyで表すのですか...
-
偏差値の求め方(逆の場合)
-
全統高2模試で数学が200点満点...
-
偏差平方和なぜ2乗
-
安全在庫=安全係数×√(リードタ...
-
平均年齢の表記方法(統計学的に)
-
推定(統計)です。有効数字の...
-
加重平均偏差値 とは、どんな偏...
-
科目別偏差値から5科目偏差値...
おすすめ情報