jcode.plのかわり

Question

jcode.plの
jcode::tr()
のかわりを探しています。

jcode.plの
jcode::tr(\$val,'０-９Ａ-Ｚａ-ｚ　（）＿＠－','0-9A-Za-z ()_@-');
をPerl5.18.2で使用するとエラーが出てしまいます。これを回避したい。

プログラムがUTF-8であれば
$val =~ tr/０-９Ａ-Ｚａ-ｚ　（）＿＠－/0-9A-Za-z ()_@-/;
のようにすれば実現可能みたいですが、プログラムはEUCで書かれています。
影響範囲からプログラムの文字コードをかえることはできれば避けたい。

一文字ずつ変換することも考えましたが、この方法ではパフォーマンスに懸念があります。

jacode.plなるものもありますが、これに置き換えるだけでは文字化けしてしまいました。

jcode::tr()のかわりになるような手段はあるのでしょうか？

kumoz · Accepted Answer

UTF-8 の内部文字列にすれば、tr で文字単位で変換することができます。プログラムのソースが EUC-JP でとのことなので、少し厄介なところはあります。

use strict;
use Encode;
use NKF;

my $str = "\xAD\xEA０１01アア";
$str = decode 'utf8', nkf('-Ew', $str);
my $from = decode 'utf8', nkf('-Ew', '０-９Ａ-Ｚａ-ｚ　（）＿＠ー');
eval "\$str =~ tr/$from/0-9A-Za-z ()_\@-/;";
$str = nkf '-We', encode('utf8', $str);
print "$str
";

私の Linux 上のパソコンでは、上記のコードで (株) は文字化けせずに全角の０と１を半角に変換します。

kumoz · Answer

(株) のような特殊な文字では、Jcode から利用している Encode.pm でもうまく行かないことがあります。

(株) の場合は、「euc-jp → utf8」は変換できるが、「utf8 → euc-jp」は変換できないようです (No4 の補足に書かれているとおりです)。

use Encode;
print encode('utf8', decode('euc-jp', "\xAD\xEA")), "\n"; # 端末UTF-8: OK
print encode('euc-jp', decode('utf8', "\xE3\x88\xB1")), "\n"; # 端末euc-jp: NG

日本語変換ユーティリティ nkf が NKF.pm を提供しています。Encode.pm で「UTF-8バイト <-> UTF-8内部」を、NKF.pm で「UTF-8バイト <-> EUC-JP」を処理すると、うまく行くかも？

kmee · Answer

「文字化け」とかいう曖昧な情報では埒があきません。
odを使って、どんなデータになっているか調べましょう

#1にあったスクリプトを
LANG=C od -t x1c スクリプト
と16進と文字とで表示します。
非ASCII文字を表示させないために、LANG=Cにしておきます。
次のように表示されるかと思います。
0000000  75  73  65  20  4a  63  6f  64  65  3b  0a  0a  6d  79  20  24
　　　　　          u   s   e       J   c   o   d   e   ;  
  
   m   y       $
0000020  73  74  72  20  3d  20  22  28  b3  f4  29  a3  b0  a3  b1  30
　　　　　          s   t   r       =       "   ( 263 364   ) 243 260 243 261   0
# ここの特性上、位置がずれてしまいます
EUC-JPで書いてあれば、「株」にあたるコードは b3 f4 になっているはずです。
8a 94 ならShift JIS, e6 a0 aa ならUTF-8です。

次に、実行結果のダンプを取ります
perl スクリプト | LANG=C od -t x1c 
本来なら、 ここでも b3 f4 になっているはずです。
もし b3 f4 ならば、使っている端末アプリケーションが文字化けの原因です。(LANGはeucJPになっているけど、端末の文字コード設定が別なものになっている、とか)
もし、それ以外のコードになっているなら、JCodeでの変換がなにかうまくいっていない、ということになります。

kichi8000 · Answer

文字コードの指定には、"jis"、"sjis"、 "euc"、"ucs2"、"utf8"が使えます。

my $str = "(株)０１01アア";
$codes = Jcode::getcode();
$str = Jcode->new( $str, 'euc')->utf8;

このutf8変換後の$codesと$strの文字列内容を教えていただけませんか。
ucs2ではないかと思うので、こうするとどうでしょうか。

my $str = "(株)０１01アア";
$codes = Jcode::getcode();
$str = Jcode->new( $str, 'ucs2')->utf8;

kmee · Answer

私の手許の環境では文字化けしません。
UTF-8の端末で実行していたり、スクリプトがEUC-JPではなかったりしませんか?

kichi8000 · Answer

文字列をUTF-8に変換してから文字列操作するのが基本ですよ。

kichi8000 · Answer

Jcode.pm などはどうでしょうか。
Jcode呼び出しの"J"は大文字になります。

http://openlab.jp/Jcode/index-j.html

jcode.plのかわり

UTF-8 の内部文字列にすれば、tr で文字単位で変換することができます。

(株) のような特殊な文字では、Jcode から利用している Encode.pm でもうまく行かないことがあります。

この回答への補足

「文字化け」とかいう曖昧な情報では埒があきません。

この回答への補足

文字コードの指定には、"jis"、"sjis"、 "euc"、"ucs2"、"utf8"が使えます。

この回答への補足

私の手許の環境では文字化けしません。

この回答への補足

文字列をUTF-8に変換してから文字列操作するのが基本ですよ。

この回答への補足

Jcode.pm などはどうでしょうか。

この回答への補足

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング