クラスター分析について

Question

はじめまして。
クラスター分析について最近勉強を始めたところです。似たもの同士をくっつけていくというイメージはできましたが、類似度の測定方法やクラスターの合併方法がたくさんありすぎて困っています。そこで、
(1)どうゆう時にどの方法を使うのが効果的なのか？
(2)各測定方法、合併方法を使う時の利点と弊害は？
以上２点についてやさしく教えて下さい。
また、詳しく分かりやすく説明してある文献があれば
紹介して下さい。
よろしくお願い致します。

selfer · Accepted Answer

自信はありませんが，手持ちの資料を参考にいくつかアドバイスをしたいと思います．浅学なため間違いがあるかもしれませんので，その点御了承下さい．

クラスター分析には実に様々な手法が用意されています．

(1)階層的／非階層的
(2)距離（類似性）の算出法
(3)結合（合併）の方法

この三ポイントでどの手法を用いるかが別れていきます．クラスター分析はオプションが様々あり，分析する人もちゃんと理解して使っている人というのはあまりいないのでは？　と個人的に思います．

(1)階層的／非階層的
少なくともこの違いだけは押さえたい基準です．クラスター分析は樹形図を描く……これが一般的な連想だと思いますが，あのような，階層的な図である樹形図を求めるのは，階層的クラスター分析です．非階層的クラスター分析は分析者が予め何個のクラスターにデータを分類するか，を指定して分類させる手法のことです．非階層的クラスターでは樹形図は描かれません．
類似性の過程を見たい，あるいは自分でクラスターを分類したいのならば階層的を，とにかくコンピュータに分類させるのであれば非階層的な手法を選びます．

(2)距離（類似性）の算出法
有名な統計ソフトにSASとSPSSがあります．SPSSはこの分類を簡単に選択できますが，SASではこの距離算出は選べない……はずです（最新版ならばあるいはできるのかもしれませんが）．また，使用する統計ソフトによって選択可能な距離法が違います．
一般的な距離選択法はユークリッド距離法でしょう．恐らくデフォルトはこれが多く，最も制限が少ない汎用性が高いものと思われます．この距離算出法の使い分けを勉強しようとすると，難しい専門書に手を出さなければなりません（(1)と(3)の説明を簡単にといえども説明している比較的入門的な統計学の教科書はありますが，この（2）の解説をしたものは入門書では見たことはありません）．
ただし，使い分けるための基準としては，そのデータが名義／順序／間隔／比率尺度のどれか，の観点で分けられます．例えば相関係数を利用する距離算出法がありますが，相関係数は間隔×間隔尺度データで算出可能な統計値であるので，名義尺度や順序尺度データには使うことはできません．このような観点から距離法を勉強されると良いと思います．使い分けに自信が出るまではデフォルトのユークリッド距離法を使われるが良いでしょう．

(3)結合（合併）の方法
主要なものに最近接法，最遠隣法，群平均法，重心法，ウォード法が挙げられます．解説書を見ると，数学的な意味算出法は説明されてはいます．例えば，最近接法はクラスター内の最も近い点同士の距離を参考に，最遠隣法は逆に遠いものを，群平均法は近い距離と遠い距離との平均を，重心法はユークリッド距離が保証されているときに重心を求めてその距離を算出などなど書かれています．
残念ながら，どのときにはどの手法が有効か……というHow to的なものを解説してくれているものはほとんどありません．一応手持ちの資料には

・最近接法：結果として鎖状の大きなクラスターができやすい
・最遠隣法：サイズのほぼ等しいクラスターができやすい
・ウォード法：各クラスター内の分散の残差が最も小さくなるようにする．

とあり，「どの手法を用いてもそのアルゴリズム内において最良のクラスターが得られるようになっている」とも書かれています（その他の結合法の特徴は触れられていません）．
なお，結合法の中では，分散に注目したウォード法が優れれているといわれています．

クラスター分析は，その他の多変量解析（重回帰分析など）とはその考えが違います．その他の多変量解析とは，その結果は正しいかどうかを判定するものが多いです．これは逆に言えば，正しい結果があるものだ，と考えているわけです．しかしクラスター分析は，そもそも「正しい」結果なんて一概には決められるものではない，分析者が考える結果を考えるための材料を提供するものだ，という精神に則っています．

これに関連して，データ解析の基本的な立場について二三思う所を述べます．データ解析法では，大きく二つの立場があると思います．選択肢が限定されている非常に固定されたものと，非常に開放的で選択肢が豊富（その代わりに一概に「正解」を導けない）．
質問者さんの御存知の通り，クラスター分析とは「似たもの同士をくっつける」解析法です．これまでの，その他の分析法では「『似たもの』というのは，素人にはその正確な定義はよくわからなくとも専門家の間では一致してはっきり○○だ，と共通の意味を持っているに違いない」と明確に「似たもの」が定義されていると考えるところです．この考えは，先の「固定的立場」です．
しかしクラスター分析では，「『似たもの』にもいろいろ意味があるよ．あなたはどの意味で『似る』って考える？　色々あるからその中で自分の考えに適したものを選んでね．『くっつける』っていろいろ結合の仕方はあるよ．そのうち，あなたの考えている『くっつける』ってどれ？　いろいろな中から選んでよ」と分析者に選択を任すようになっています．これは「開放的立場」です．
クラスター分析がもしも伝統的な「固定的立場」から作られたとすると，例えば「『似る』や『くっつける』とは色々あるだろうが△△に意味を限定するぞ！　え？　その意味に納得できない？　しらん．その意味に納得できないなら，この解析法を使うな」となるかもしれません．

この意味からすると，クラスター分析のオプションの選択には「利点や弊害」というものはないと思います．例えば，最近接法では「大きなクラスターができやすい」とあります．これが何か問題があるのでしょうか？　もし「サイズのほぼ等しいクラスターを作りたい」と分析者が考えていれば，これは「弊害」になるかもしれません．でも，最近接法の基準でいえば，自分の基準内で理想的なクラスターを作成しているだけで，利点も弊害もありません．
こう考えるとクラスター分析では「効果的」という考えも不適で，「そもそも分析者はどんなクラスターができれば理想なの？」と大本に立ち戻る必要があると思います．

そういうわけで，実際問題としては，あまり数学的な意味をあれこれ押さえるよりも，実際に統計ソフトで分析させみて，実際にどのような結果になるのか，を見て判断するのが一番「効果的」だと思います．

……と書きながらも，私自身も，どの合併法ではどのような特徴があるのかを知りたい，という微妙な気持ちを持っているのですが……

参考資料
「Q&Aで知る統計データ解析」サイエンス社(ISBN4-7819-0915-9)
「初心者がらくらく読める多変量解析の実践」現代数学社(ISBN4-7687-0212-0)

クラスター分析について

自信はありませんが，手持ちの資料を参考にいくつかアドバイスをしたいと思います．浅学なため間違いがあるかもしれませんので，その点御了承下さい．

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング