文書間の類似度を調べるのにコサイン類似度を用いない理由 ( コサイン類似度の欠点 ) があったら教えてください

解決済

質問者：aopon1981
質問日時：2006/02/05 20:23
回答数：2件

ここのカテゴリでいいかわからないのですが質問させてください。

今ある事情である文書とべつの文書が類似してるかどうか調べています。
この時オーソドックスなのがコサイン類似度を用いるのが普通だと思います。
しかし事情があり、別の方法を取りたいと考えています。
そこで他人に説明するときにコサイン類似度を用いない理由を説明する必要があるので、考えられるコサイン類似度を用いない理由 ( コサイン類似度の欠点 ) があったら教えてください。

また、他に適切なカテゴリがあったら教えてください。

よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： tatsumi01
回答日時：2006/02/06 09:04

コサイン類似度の定義が明確でないので答えられません。

常識的に考えると、二つのベクトル a, b があるとき、その類似度は
(a, b) /(||a||・||b||)
で定義されます。分子はベクトルの内積で、分母はそれぞれのノルムです。これはベクトル空間における二つのベクトルのコサインになります。
このように定義された類似度 s は
-1 ≦ s ≦ 1
になり、右側の等号が成立するのは a=Kb (K>0) のときだけです。
このような性質があるので類似度は良く用いられますが、これおを用いなければならない必然性があるわけではありません。

- 1
- 件

通報する

この回答へのお礼

申し訳ありません、定義を書き忘れました。
tatsumi01 さんの定義を想定していました。

通報する

お礼日時：2006/02/11 15:38

No.2

回答者： tatsumi01
回答日時：2006/02/06 09:16

No. 1 のものですが補足します。

「文書」の定義がわかりません。スキャナで取り込んだ文書画像でしょうか、それとも文字列でしょうか。
文書画像 (H×V) としますと、画素の値を並べて N=HV 次元のベクトルを作れば No. 1 での回答通りになります。ただし、画像の場合は類似度ではダメです。全く同じ画像でも、数画素ずらしても、傾けても、拡大倍率が変わっても、類似度は大きく下がります。その補正方法はいろいろ考えられています。
文字コード系列とすると、そもそも文字数が違いますから内積が定義できません。文字数が異なる場合の文字列のマッチングは DTW (Dynamic Time Warping) と呼ばれ、音声認識や文書検索で広く用いられています。