文字コードの判定処理について

Question

いつもお世話になっております。

以下の例の様に
文字コードがEUCであるか正規表現で判定ロジックを記述したいのですが、
どのように記述すればよろしいのでしょうか？

(例)
if(文字コードがEUCであるか正規表現でチェック){
　処理A
}

root139 · Accepted Answer

> $s='%B5%D9%BB%DF%A1%A6%B2%F2%CC%F3%A1%A6%C9%FC%B3%E8';

この文字列には、%とアルファベットと数字しか存在しませんので、ASCII文字しか含まれていません。
これは、URLエスケープされたデータですね。
http://ja.wikipedia.org/wiki/URL%E3%82%A8%E3%83%B3%E3%82%B3%E3%83%BC%E3%83%89

元の文字列を取得するにはURLアンエスケープしてやる必要が有ります。
URLアンエスケープするには、URI::Escape モジュールを使うか、正規表現とpack関数で「%XX」をバイトデータに変換します。

例) URI::Escape モジュールを使う場合 ------------------------------
use Jcode;
use URI::Escape;

my $str = '%B5%D9%BB%DF%A1%A6%B2%F2%CC%F3%A1%A6%C9%FC%B3%E8';
my $unescape_str =  uri_unescape($str);

my ($code, $nmatch) = getcode($unescape_str);
print $code;
-------------------------------------------------------------------

例) 正規表現とpack関数を使う場合 ----------------------------------
use Jcode;

my $str = '%B5%D9%BB%DF%A1%A6%B2%F2%CC%F3%A1%A6%C9%FC%B3%E8';
$str =~ tr/+/ /;
$str =~ s/%([0-9A-Fa-f][0-9A-Fa-f])/pack('H2', $1)/eg;

my ($code, $nmatch) = getcode($str);
print $code;
-------------------------------------------------------------------

参考URL：http://www.din.or.jp/~ohzaki/perl.htm#JP_Escape

root139 · Answer

確かに %uXXXX の有無で処理を分ける必要は有りそうですね。
%uXXXX の有無で Encode::Guess の候補を切替える方法でも大丈夫そうです。

例) ---------------------------------------------------------------
use Encode qw/from_to/;
use Encode::Guess;

$hikisu = $ARGV[0];
if ($hikisu == 1) {
$s = '%u4f11%u6b62%u30fb%u89e3%u7d04%u30fb%u5fa9%u6d3b'; # UTF-16
} elsif ($hikisu == 2) {
$s = '%E4%BC%91%E6%AD%A2%E3%83%BB%E8%A7%A3%E7%B4%84%E3%83%BB%E5%BE%A9%E6%B4%BB'; # UTF-8
} elsif ($hikisu == 3) {
$s='%B5%D9%BB%DF%A1%A6%B2%F2%CC%F3%A1%A6%C9%FC%B3%E8'; #EUC
} elsif ($hikisu == 4) {
$s='%8Bx%8E%7E%81E%89%F0%96%F1%81E%95%9C%8A%88'; #SJIS
}

if ($s =~ /%u[0-9a-fA-F]{4}/) {
Encode::Guess->set_suspects('utf-16be');
} else {
Encode::Guess->set_suspects(qw/shift-jis euc-jp 7bit-jis/);
}

$s =~ tr/+/ /;
$s =~ s/%(?:([0-9A-Fa-f]{2})|u([0-9A-Fa-f]{4}))/pack('H*', defined($1) ? $1 : $2)/eg;
my $decoder = Encode::Guess->guess($s);
die $decoder unless (ref($decoder));
&from_to( $s, $decoder->name, "shiftjis" );

print $s;
-------------------------------------------------------------------

参考URL：http://www.kt.rim.or.jp/~kbk/perl-5.8/guess.html

root139 · Answer

単にUTF-16エンコーディングという場合は、BOM付きか、BOM無しのビッグエンディアンとなるようです。
http://ja.wikipedia.org/wiki/UTF-16#UTF-16.E7.AC.A6.E5.8F.B7.E5.8C.96.E3.82.B9.E3.82.AD.E3.83.BC.E3.83.A0
ですので、BOM無しの UTF-16LE は来ないものとして良ければ、Encode::Guess の判定対象から UTF-16LE を外してはどうでしょう？

例) ---------------------------------------------------------------
use Encode qw/encode/;
use Encode::Guess qw/shift-jis euc-jp 7bit-jis UTF-16BE/;
$s='%u4f11%u6b62%u30fb%u89e3%u7d04%u30fb%u5fa9%u6d3b'; #UTF-16
$s =~ tr/+/ /;
$s =~ s/%(?:([0-9A-Fa-f]{2})|u([0-9A-Fa-f]{4}))/pack('H*', defined($1) ? $1 : $2)/eg;
my $decoder = Encode::Guess->guess($s);
die $decoder unless (ref($decoder));
print $decoder->name;
print " (UTF-16)" if ($decoder->name =~ /^UTF-16/i);
print "
";

my $utf8 = $decoder->decode($s);
print encode("shift-jis", $utf8);
-------------------------------------------------------------------

root139 · Answer

前出の正規表現とpack関数の処理では %uXXXX に対応していません。
URI::Escape も %uXXXX に対応していないみたいですね。(そもそも %uXXXX は規格外？)
%uXXXX に対応している URI::Escape::XS というモジュールも在るようです。
http://blog.livedoor.jp/dankogai/archives/50818918.html
ただし、標準モジュールではなさそうですのでインストールが必要になります。

正規表現とpack関数を使う場合は、置換処理を下記の様にしてやれば良さそうです。
-------------------------------------------------------------------
$s =~ s/%(?:([0-9A-Fa-f]{2})|u([0-9A-Fa-f]{4}))/pack('H*', defined($1) ? $1 : $2)/eg;
-------------------------------------------------------------------

上記のどちらかの方法で、%uXXXX 形式のエスケープに対応できると思います。

判定の方ですが、対象のエンコーディングに UTF-16BE, UTF-16LE を加えるたらどうでしょう？
手元に Encode::Guess が動く環境が無いので、確認はしていません。

例) ---------------------------------------------------------------
use Encode::Guess qw/shift-jis euc-jp 7bit-jis UTF-16BE UTF-16LE/;
$s='%u4f11%u6b62%u30fb%u89e3%u7d04%u30fb%u5fa9%u6d3b'; #UTF-16
$s =~ tr/+/ /;
$s =~ s/%(?:([0-9A-Fa-f]{2})|u([0-9A-Fa-f]{4}))/pack('H*', defined($1) ? $1 : $2)/eg;

// この時点で$sにはデコードされた文字列が入っている。(2)のご質問。

my $decoder = Encode::Guess->guess($s);
die $decoder unless (ref($decoder));

print $s;
-------------------------------------------------------------------

root139 · Answer

特に正規表現を直接使って書く必要が無いのでしたら、Encode::GuessやJcodeを使われるのが良いかと。

例) ---------------------------------------------------------------
use Jcode;
my ($code, $nmatch) = getcode($str);
if ($code eq 'euc') {
# EUCの場合の処理
}
-------------------------------------------------------------------

例) ---------------------------------------------------------------
use Encode::Guess qw/shift-jis euc-jp 7bit-jis/;
my $decoder = Encode::Guess->guess($str);
die $decoder unless (ref($decoder));
if ($decoder->name eq 'euc-jp') {
# EUCの場合の処理
}
-------------------------------------------------------------------

正規表現を使った日本語文字コードの判定ロジックは参考URLに載っています。

参考URL：http://www.din.or.jp/~ohzaki/perl.htm#JP_Code

文字コードの判定処理について

> $s='%B5%D9%BB%DF%A1%A6%B2%F2%CC%F3%A1%A6%C9%FC%B3%E8';

この回答への補足

確かに %uXXXX の有無で処理を分ける必要は有りそうですね。

単にUTF-16エンコーディングという場合は、BOM付きか、BOM無しのビッグエンディアンとなるようです。

この回答への補足

前出の正規表現とpack関数の処理では %uXXXX に対応していません。

この回答への補足

特に正規表現を直接使って書く必要が無いのでしたら、Encode::GuessやJcodeを使われるのが良いかと。

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング