レーベンシュタイン距離とマッチ率を同時に出したい

Question

タイトル通り、EclipseのPHPで任意の単語同士のリーベンシュタイン距離、それらのマッチ率を出したいのですが、以下のところまで出来たのですがどん詰り状態で困っています。転載が長いので先に質問を書いておきます。最終的な形としては、・「リーベン距離○=○　、マッチ率 AとBは○％マッチ」のような形で一緒に表示させたい。（できれば１～など改行ごとに番号もふりたい）・マッチ率の表示もマルチバイトのエンコードで文字化けさせないようにしたい。 …です。現段階では、リーベン距離はしっかり表示されますが、出力後のリーベン距離の数字それぞれの間に、文字化けしたマッチ率が入り込んでしまいます。稚拙な質問の仕方で恐縮ですが、解決法をご存じの方がいらっしゃいましたら御教授のほどよろしくお願い申し上げます。（以下転載） $d[$mb_len1][$mb_len2], 'count_same_letter' => $count_same_letter); } *求めたいリーベン距離のテキストのサンプル（長いので４つだけ書き出します） $text = array( array('ath', '八'), array('ath', 'oktōu'), array('ath', 'eight'), array('ath', 'acht'), ); foreach($text as $row) { echo levenshtein($row[0], $row[1]); echo ' = '; echo LevenshteinDistance($row[0], $row[1]); echo '
'; *求めたい単語のマッチ率を求める（マルチバイト対応のやり方が不明のためこのままだと文字化けする） $Key = "ath"; $words = array( '八', 'oktōu', 'eight', 'acht', ); $matches = array(); foreach ($words as $word) { $c = similar_text($Key, $word, $percent); echo $Key. ' と ' .$word. ' は ' .intval($percent). '% マッチ('.$c.')'; echo "
"; $matches[intval($percent)] = $word; } } ?> （転載終わり）これらを実効出力すると、 3 = 4 ath 縺ィ蜈ォ is 0% similar(0) ath 縺ィ oktナ講 is 22% similar(1) ath 縺ィ eight is 25% similar(1) ath 縺ィ acht is 57% similar(2) 5 = 6 ath 縺ィ蜈ォ is 0% similar(0) ath 縺ィ oktナ講 is 22% similar(1) ath 縺ィ eight is 25% similar(1) ath 縺ィ acht is 57% similar(2) 4 = 6 ath 縺ィ蜈ォ is 0% similar(0) ath 縺ィ oktナ講 is 22% similar(1) ath 縺ィ eight is 25% similar(1) ath 縺ィ acht is 57% similar(2) 2 = 3 ath 縺ィ蜈ォ is 0% similar(0) ath 縺ィ oktナ講 is 22% similar(1) ath 縺ィ eight is 25% similar(1) ath 縺ィ acht is 57% similar(2) と、リーベンは大丈夫でも他がめちゃめちゃになってしまっている状況です。恐縮ですが、御教授のほど、よろしくお願い申し上げます。

tomaju · Accepted Answer

http://oshiete.goo.ne.jp/qa/7084707.html

> 縺ィ 蜈ォ

この化け方は、UTF-8 の文字列を Shift_JIS とみなして表示しているときに
見かけます。

Eclipse を使ったことがないので、実行結果がどこに出てくるのかわかりませんが
もしWebブラウザで見ているなら、ツールとかオプションとかでエンコードを
Shift_JIS に変更すれば、文字化けせずに表示されないでしょうか?

> echo $Key. ' と ' .$word. ' は ' .intval($percent). '% マッチ('.$c.')';

ここで、出力に先立って Shift_JIS に変換してやれば、とりあえず解消するように思います。

$buf = $Key. ' と ' .$word. ' は ' .intval($percent). '% マッチ('.$c.')';
echo mb_convert_encoding($buf, 'SJIS', 'UTF-8');

ただし o の上に棒のある文字はうまく表示できないかもしれません。

また、出力内容の文字コードが UTF-8 であるにもかかわらず、
HTTPレスポンスヘッダや HTMLのmetaタグの Content-Type で
charset=Shift_JIS を宣言している、といった食い違いが考えられるので
そちらを charset=UTF-8 にしてもいいかと思います。

tomaju · Answer

お返事が遅くなってしまいすみません。
UTF-8 であればアクセント付文字を表示できそうです。

>$buf = $Key. ' と ' .$word. ' は ' .intval($percent). '% マッチ('.$c.')';
>echo mb_convert_encoding($buf, 'SJIS', 'UTF-8');

この SJIS への変換は止めて、元に戻しましょう。

echo $Key. ' と ' .$word. ' は ' .intval($percent). '% マッチ('.$c.')';

そして、ブラウザへの出力を始める前、
すなわち、

foreach($text as $row) {

の前あたりに、

header('Content-Type: text/html; charset=utf-8');

を書いてみてください。

レーベンシュタイン距離とマッチ率を同時に出したい

この回答への補足

お返事が遅くなってしまいすみません。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング