Perl 比較　順不同

締切済

質問者：spider32
質問日時：2013/06/14 11:54
回答数：4件

恐れ入ります。
Perlのデキスト操作で、

文字列を順不同に比較して一致率をみることはできるでしょうか。
例えば、123456 654321を比較した場合、一致率は100%
162534と234651も一致率100%という感じです。

この比較をカタカナ標記の文字列で行いたいと思っています。

よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

最新から表示
回答順に表示

No.4

回答者： kumoz
回答日時：2013/06/19 19:24

> perlのバージョンは　5.8.8

> プログラムの文字コードは　EUC-JP
> ファイルの文字コードも　EUC-JP

使われている文字コードが EUC-JP の場合は、次のように変更してみてください。

my $data1 = decode 'euc-jp', 'アイウエオカキクケコ';
my $data2 = decode 'euc-jp', 'カキクケコサシスセソ';

decode の第１引数は、第２引数で指定した文字列の文字コードです。decode すると、文字列はいわゆる「Perl 内部文字列」になります。なお、「Perl 内部文字列」を外側 (コンソール、ファイルなど) に出力する場合は、(やり方はいろいろあるのですが) 一例としては次のようにします。

print encode('euc-jp', $data1), "\n";

- 0
- 件

通報する

No.3

回答者： kumoz
回答日時：2013/06/18 19:28

Perl で日本語文字列を扱うのは非常に厄介で、プログラミングしている環境を理解していることが重要です。

・Perl のバージョン
・プログラムの文字コード
・ファイルの文字コード

以下のコード例は、Perl のバージョン 5.8.x 以降で、プログラムを UTF-8 で書いています。

use strict;
use warnings;
use Encode;

my $data1 = decode 'utf8', 'アイウエオカキクケコ';
my $data2 = decode 'utf8', 'カキクケコサシスセソ';
$data2 =~ s/\Q$_// foreach split //, $data1;
printf "%.1f%%\n", (length($data1) - length($data2)) * 100 / length($data1);

この回答への補足

ありがとうございます。
perlのバージョンは　5.8.8
プログラムの文字コードは　EUC-JP
ファイルの文字コードも　EUC-JP
です。

ご返答いただいたプログラムを試してみます。

補足日時：2013/06/19 17:27

通報する

- 0
- 件

通報する

この回答へのお礼

ありがとうございます。大変参考になりました。

通報する

お礼日時：2014/09/27 13:46

No.2

回答者： Tacosan
回答日時：2013/06/14 23:41

セオリーとしてはハッシュで数えるんだろうなぁ. 例えば

my %count1 = ();
my @distinct_chars = grep ! $count1{$_}++, split // $line1;
とか.

この回答への補足

恐れ入ります。初心者の為、苦戦しています。
現在やろうとしていることは、
データが２つあり、その比較を行う作業です。
エクセルでvlookupであいまい検索をしても、
一致しない箇所がデータによってマチマチなので、
perlでデータどうしの一致率で比較ができないかと思い、悪戦苦闘しています。

data1.csv と、data2.csvの、
1列目どうしを比較して、一致率の高いデータを抜き出したいのです。

data1とdata2のレコードの並び順は一致しません。

よろしくお願いします。

補足日時：2013/06/17 16:47

通報する