CGI（Perl）の文字化けについて

Question

WEBフォームからの入力データをHTMLに加工して表示するというシンプルなCGIプログラムなのですが、
全角スペースの後に全角カタカナが入ると、全角スペースの部分から後が文字化けしてしまいます。
他はきちんと表示されているのですが、全角スペースとカタカナが続いているのが良くないみたいで、文字化けしてしまうようです。
全角スペースを取ってしまえばいいのかと思い、WEBで検索して色々と試してみましたが、変わりません。。
このような場合はどういう対処をするのが一番いいのでしょうか。
文字コードはEUCを使っています。（WEBフォーム、CGIとも）
教えてください。よろしくお願いいたします。

petita · Accepted Answer

失礼しました。
$val=~s/(?<!\xA1)\xA1\xA5/\x2E/g;
でいいと思いますが、J(j)code::tr を使う方が良いかもしれませんね。

ryu_chan · Answer

現在は標準モジュールのEncodeを用いるのが一般的です。Encodeモジュールのdecode関数でテキスト文字列に変換してから文字列処理をします。

Encodeモジュールを使えば例えば以下のようにできます。

use Encode;

$val = decode "euc-jp", $val;
eval decode "euc-jp", '$val =~ tr/０-９Ａ-Ｚａ-ｚ＠．＿－/0-9A-Za-z@._-/';

if($@) {
エラー処理
}

$val = encode "euc-jp", $val;

JcodeはEncodeのラッパーなので、おそらくJcode内部では上記と同じような処理が行われています。ただし、既にJcodeを多用されているようなので、Jcodeで解決できればそれでいいとは思います。

文字化けの可能性は他にも沢山あり、今回の全角スペース＋カタカナは氷山の一角です。No.9さんの「J(j)code::tr を使う方が良いかもしれませんね。」は、そのことも指しています。

kumoz · Answer

> &Jcode::tr(\$val, '０-９Ａ-Ｚａ-ｚ－＠．＿', '0-9A-Za-z-@._');
↓
&Jcode::tr(\$val, '－０-９Ａ-Ｚａ-ｚ＠．＿', '-0-9A-Za-z@._');

見落としていたのですが、可能性としてハイフンの位置が悪いのかもしれません。置換文字列 '0-9A-Za-z-@._' の z と @ の間の - がエラーの原因になっている可能性があります。ハイフンを先頭または末尾に移動して試してみてはどうでしょうか？

http://d.hatena.ne.jp/hiratara/20071226/1198685671

ネット上では Jcode の tr() はハイフンに弱いという情報があります (上記 URL)。面倒ですが、小分けにして書いてみてはどうでしょうか？ １つずつ追加しながら実行してみると、どこでエラーが発生しているのか分かるかもしれません。

$j = Jcode->new(\$val);
$j->tr('０-９', '0-9');
$j->tr('Ａ-Ｚ', 'A-Z');
$j->tr('ａ-ｚ', 'a-z');
$j->tr('＠．＿', '@._');
$j->tr('－', '-');

kumoz · Answer

> &jcode::tr(\$val, '０-９Ａ-Ｚａ-ｚ－＠．＿', '0-9A-Za-z-@._');

手元にテストできる環境がないので誤っているかもしれませんが、Jcode.pm では最初を大文字にして &Jcode::tr をまず試してみてください。(ちなみに、jcode.pl では最初の文字が小文字で &jcode::tr を使う。)

上記の方法を試してもダメな場合は、オブジェクト指向のやり方もあります。

$j = Jcode->new(\$val);
$j->tr('０-９Ａ-Ｚａ-ｚ－＠．＿', '0-9A-Za-z-@._');

kumoz · Answer

> #全角半角処理
> $val =~ s/\＠/\@/g;
> $val =~ s/\．/\./g;
> $val =~ s/\＿/\_/g;
> $val =~ s/\－/\-/g;

EUC-JP では第１バイトと第２バイトに重複したコードが使われるので、上記のような正規表現は文字化けの危険が伴います。Jcode には tr() 関数が付属していまず。下記の URL に使い方が書いてありますので、参照ください。

http://mikeneko.creator.club.ne.jp/~lab/kcode/jcode.html
http://openlab.jp/Jcode/Nihongo.html

petita · Answer

$val=~s/\xA1{1}\xA5/\x2E/g;

petita · Answer

「 $val =~ s/\．/\./g; 」 のところが原因です。
EUC-JP文字セットでは、全角空白は 「\xA1\xA1」、全角ピリオドは [\xA1\xA5]、全角カタカナの１バイト目は「\xA5」 だからです。

ORUKA1951 · Answer

＞全角カタカナの場合、全角スペースの後に続くと文字化けしているみたいです。

これは経験がないのでわかりませんが、ありえない動作です。
　該当するフォームと、Perlの処理部分、おび出力HTMLを見ないとなんとも・・

ローカルでテストできれば、それぞれの時点で
print ERROR "line 152:$_
";
とでもして、その時点での値を出力してみるとか・・

ORUKA1951 · Answer

＞全角スペースとカタカナが続いているのが良くないみたい
と
＞文字コードはEUCを使っています。
は矛盾してますけど。
　EUCには半角カタカナはないです。EUC-JPにはありますが、それでも下記の問題を含んでいます。
EUC-JP ( http://ja.wikipedia.org/wiki/%E5%8D%8A%E8%A7%92%E3%82%AB%E3%83%8A#EUC-JP )

そもそも半角カタカナをHTMLに記述することには無理があり、半角カタカナを全角カタカナに変換するか、HTMLをUTF-8にするか、数値文字参照( HTML4 で使える文字実体参照 ( http://www.ne.jp/asahi/minazuki/bakera/html/reference/charref ) の下のほう)で記述することになるでしょう。

詳しい処理については、
Perlメモ ( http://www.din.or.jp/~ohzaki/perl.htm#JP_EUC_JP )の「日本語を扱う」の項目をご覧ください。

ま、Perl5.8以降なら、UTF-8に対応しているので、UTF-8で完結したほうが良いでしょう。(ライブラリは使わなくてすむ)

gadgetwatch · Answer

フォーム画面およびCGIともにEUCなら、全角スペース関連で化けるということはあまりないような気がします。

CGI側でフォームから送られたデータを変数に格納している部分があると思いますが、そのライブラリなどは何をお使いですか？そのあたりからヒントが得られるかもしれません。

まずは全部でなくていいので、入力データのデコード部分と実際の表示部分のソースを見せていただくことは可能ですか？

CGI（Perl）の文字化けについて

失礼しました。

現在は標準モジュールのEncodeを用いるのが一般的です。

> &Jcode::tr(\$val, '０-９Ａ-Ｚａ-ｚ－＠．＿', '0-9A-Za-z-@._');

> &jcode::tr(\$val, '０-９Ａ-Ｚａ-ｚ－＠．＿', '0-9A-Za-z-@._');

> #全角半角処理

$val=~s/\xA1{1}\xA5/\x2E/g;

「 $val =~ s/\．/\./g; 」 のところが原因です。

＞全角カタカナの場合、全角スペースの後に続くと文字化けしているみたいです。

＞全角スペースとカタカナが続いているのが良くないみたい

フォーム画面およびCGIともにEUCなら、全角スペース関連で化けるということはあまりないような気がします。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

「 $val =~ s/\．/\./g; 」のところが原因です。