No.1ベストアンサー
- 回答日時:
(1)について。
クラスター分析ってのは、サンプルがどっさりあって、しかも一目瞭然に分かれているときには上手く行くけど、曖昧なサンプルが混ざってくるとどうにでもなってしまう。ことにクラスター間の距離を要素同士の最短距離で測った時には、「たまたまこんなとこにサンプルがあった」ということの影響が強く出る。サンプルのたまたまだけじゃなく、クラスター間の距離の定義を変えると結果が全然違っちゃうことが多いし、その上、サンプルの空間を非線形変換で別の空間に写すと単なる線形判別の問題になる場合だってある(という話は、例えばSupport Vector Machineについて調べてみるとお分かりになるかも。)。また、ファジイ集合を使うやりかたもある。そういうことも含めればいろんなバリエーションが考えられ、「分析」と言うより、これはもうただの「情報処理」と見るべきじゃないかな。
なので、(必要なら適当な非線形変換をやった上で)「散布図を人が見れば一目瞭然なんだけど、それを自動で処理したい」だとか「まちがいなく綺麗に分かれているんだけど、次元が高くて散布図に描けない」という場合に使うのなら健全であるけれども、「散布図を見てもごちゃごちゃで分からんから、クラスター分析でなんとか答を出そう」となるとイカガナモノカ。
で、もちろんこのイカガナモノカ的応用においてこそ、ご質問の問題意識が生じるに違いない。となると、まずは、仰るところの「信頼性・妥当性」をどう測るか、測る目的とサンプルの分布の性質に合わせて上手い尺度を作る事が問題でしょ。何かを最小化する、という極値問題に持って行ければ綺麗なんだけれども、そうも行かない場合にはサンプルの発生モデル(正解のモデル)をかなり限定した上で分類を誤る確率を考える、という手もあるだろうし、いや実際にクラスターを併合する際にどのぐらいムリが生じたか(たとえばクラスタの直径や分散がどのぐらい大きくなったか)を測ってみるとか、そのムリの程度を評価するAIC(Akaike's Information Criteria)みたいな手法を作ってみるとか、いろいろアイデアは出せるものの、ともあれ、目的に合ってなきゃ意味がないんで、一般論だけじゃ済まないだろうと思います。
(2)について。どこが分かんないですか。
サンプルの集合Xの中からK個をテキトーに選ぶ。その位置をクラスターkの「タネ」とする。(k=1,2,...,K)
repeat
for each サンプル x∈X
xをその最寄りの「タネ」と対応づける。
rof (* これでXがK個のクラスターに分かれた。 *)
for each クラスターk∈{1,2,..,K}
クラスターkのメンバーの平均値の位置に「タネ」を移動。
rof
until どの「タネ」もほとんど動かなくなるまで繰り返し。
単純明快だと思うけど、迷うとしたら「テキトー」ってところかな。普通は乱数で選ぶんです。でも、最初のタネの選ばれ具合によって、結果が違ってくることがあり、ここがいやらしい。
ちょっと工夫して、サンプルが密集しているところを探してタネを置き、既にあるタネの近くにはタネを置かない、というようにすることもできる。そうすれば何度やっても同じ答になる上に、収束が速くなるでしょう。たとえばサンプルxとyの距離の2乗をD(x,y)とするとき、各サンプルxについて
ρ(x) = Σexp(-D(x,y)/(2(σ^2)) (Σはy∈Xについての和)
を計算すれば、「密集度ρ」が高い所がどこなのか分かる。んでもって、j+1番目のタネs(j+1)を置くときには
ν(x) = ρ(x) Π(1-exp(-D(x,s(i))/(2(τ^2))) (Πはi=1,2,...,jについての積)
が最大になるxを選ぶとか。あー、いや、これは我流ですから無闇に信用しちゃいけません。
この回答へのお礼
お礼日時:2009/05/25 04:30
詳しいご回答ありがとうございます。
しかしながら書かれていることが私にとっては難しい内容なので、何度も読み返して理解を深めたいと思います。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
統計でいう「n」は、何の略な...
-
試行回数と誤差の関係
-
統計学-母集団が少ない場合の...
-
ベイズと頻度論はデータ量が多...
-
統計学 市場の必要サンプル数...
-
「中心極限定理でサンプリング...
-
行列の行と列に対称性がないり...
-
N数?n数?サンプル数の「エヌ...
-
正規分布に従わないと標準偏差...
-
偏差値60の人と偏差値50の人が...
-
顔面偏差値100点満点中何点ぐら...
-
社会人の偏差値の調べ方
-
確立の問題です
-
サンプル数が1とサンプル数が...
-
統計学における有効数字につい...
-
標本分散が母分散より少し小さ...
-
工程能力のN数補正について
-
(1)で分散を求める時、解答では...
-
20代男子で身長162cmって全体の...
-
標準偏差バーをグラフに入れた...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
おすすめ情報