Encodeモジュールで日本語化したい

Question

今まで全てのPerlをjcode.plを使って日本語化してきました。
長年根本の構造をきちんと理解せず、jcode.plは呪文のように最初に宣言して使用してきたため、現在文字化け対策をするため、今回Encodeモジュールを使って日本語変換を行うための方法が分からず困っています。

formから送信されてきたものを変換するため、
foreach $pair(@pairs) {
($name,$value) = split(/=/,$pair);
$value =~ tr/+/ /;
$value =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C",hex($1))/eg;
$name =~ tr/+/ /;
$name =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C",hex($1))/eg;
&jcode'convert(*name,'sjis');
&jcode'convert(*value,'sjis');
$in{$name} = $value;#ここは状況に応じて変えてます
}
として最初に一括して変換してやり、
ウェブ上で表示させるときは
<meta http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
を指定してそのまま表示、

メールなどでは
&jis("Subject: $sub"); print AAA "$msg
";
sub jis { $msg = $_[0]; &jcode'convert(*msg, 'jis'); }
などとして出力してきました。

これらをEncodeモジュールを使って書き換えたいのですが、参考に
http://digit.que.ne.jp/work/wiki.cgi?Perl%E3%83%A1%E3%83%A2%2F%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AE%E6%89%B1%E3%81%84
このページを読んだのですが、perlの根本が理解できていないので、どこをどうしていいのか分かりません。
上のような形式をEncodeモジュールを使って書き換えるとすればどのようにすればいいのでしょうか。
（どう聞けばいいかも分からないので、うまく伝えられたか不安ですが）

hujitomo · Accepted Answer

#1です
ああ、その書き方では駄目です。
Base64 エンコードする必要があるのはあくまでも日本語などの『非ASCIIのデータ』のみですから

&jis("$sub"); &base64("$msg"); print AAA "Subject: $str
";

となります（"Subject:"の部分はエンコードしちゃ駄目）
ですから正確を期すならば sub base64 も

sub base64 {
use MIME::Base64;
$str = $_[0];
  if($str =~ /[^!-~\s]/){
  $str = encode_base64($str, "");
  $str = '=?iso-2022-jp?B?' . $str . '?=';
  }
}

としておけば完璧でしょう（サブジェクトにASCII以外の文字が含まれている場合のみ Base64 エンコードを行います）



return $str; に関して
コメントアウトしないと動作しないとの事ですが…
そうですね。その関数の呼び出し方だとそうなるかもしれません。
最初見た時は何気に見過ごしていたのですが、今回改めて眺めてみて

&jis("Subject: $sub"); &base64("$msg"); print AAA "$str
";

この一行の意味がしばらく理解できなかったです。何故？何故変数名がコロコロ変わってるの？？この変数はどっから湧いてきた？？？って
strict モジュールを用いて必ず変数宣言する癖がついて幾星霜。こんなperl4チックなスクリプトは久しぶりだったもので油断しました。
とりあえず今回の質問とは全然関係ないのでスルーしても良いのですが、今後も perl を触り続けるのならば、上記のようなソースは NG となりますので、一度キチンと基本から学んでおいた方が良いかもしれませんよ？（大きなお世話ですが）
興味があるようでしたら、 use strict みたいなワードでグーグル先生に聞いてみましょう。


PS
print AAA "Content-Type: text/plain\; charset="ISO-2022-JP"

";
↑改行しすぎでコーヒー吹いた
改行は２個で良いんですよ、２個で↓
print AAA "Content-Type: text/plain\; charset="ISO-2022-JP"

";

hujitomo · Answer

#1です

＞ここのEncodeの中の$valueは$strでいいのでしょうか？
＞$subject2を$subとすればいいのでしょうか？

おっしゃる通りでございます。
なんかいろいろとグダグダで申し訳ありません。

んでパールの記述チェックで Prototype mismatch エラーが出たということは、多分 encode って名前のサブルーチンがすでにスクリプト内で宣言されているのではないでしょうか？（ sub encode でスクリプトを検索してみてください）Encode モジュールを使用するならばこの名前は使用できませんので、別の名前に置換してやる必要があります。


ちなみに、
＞文字化けすることがたびたびある
との事ですが、別にこれは jcode.pl に原因があるわけではなく、スクリプトの書き方に問題が在るためだと思いますよ（多分ですけど）
文字コードを変換するときに incode をキッチリと明示してやればそうそう化ける事などない筈です。
というかそもそも
・フォームを記述した html が Shift_JIS
・スクリプトも Shift_JIS
・スクリプトが吐き出すデータも Shift_JIS
ならば文字コードを変換する必要がそもそも無くなるわけで、論理的に文字化けなど起こる筈もありません（機種依存文字や携帯の絵文字を使われたらその限りではありませんが、これはもうどうしようもないですもん）

まぁそれでも『今更 jcode.pl なんか使ってらんねぇぜ！俺は Encode を使いたいんだYO！』という気持ちも解らないでもありません。そんな場合は Jcode.pm を Encode モジュールのラッパーとして使用するのが一番簡単かもしれないですね（今更そんな事言うなよ！という突っ込みはナシの方向で…）
jcode.pl と同じ感覚で Encode モジュールを使用する事が可能です。

作業その１
require './jcode.pl'; を require './Jcode.pm'; に変更

作業その２
スクリプト内の &jcode' を &Jcode:: に全置換

作業その３
Jcode.pmをサーバにアップ

基本的にこれだけで作業は完了です。
詳しくは Encode モジュールの作者であり、 Jcode モジュールの作者でもある小飼 弾様のサイトを参照なさってみてください。

参考URL：http://openlab.ring.gr.jp/Jcode/index-j.html

hujitomo · Answer

すみません#1です
BASE64 変換する際には MIME::Base64 というモジュールを使用するという事を書き漏らしておりました。
ですから

use MIME::Base64;

というおまじないがスクリプトに必要となります。
MIME::Base64 は Perl5 以降なら標準で搭載されているモジュールですので別途 CPAN のお世話になる必要はございません。

hujitomo · Answer

文字化け対策で何故 Encode モジュールを使用するのでしょう？
よくわからないなぁ…？
ユニコードでも扱うとでもいうのでしょうか？

想像で恐縮ですが、ここでは UTF-8 で作成されたフォームからデータを受け取りたいのだと仮定しておきます。

まずは最初におまじないを記述
use Encode qw(from_to encode);

あとは
foreach $pair(@pairs) {
($name,$value) = split(/=/,$pair);
$value =~ tr/+/ /;
$value =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C",hex($1))/eg;
$name =~ tr/+/ /;
$name =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C",hex($1))/eg;
Encode::from_to($name, "utf8", "cp932");
Encode::from_to($value, "utf8", "cp932");
$in{$name} = $value;
}

これでとりあえず受け取ったデータを Shift_JIS に変換できました。
（正確には CP932 ですけどね。Shift_JIS に変換せても良いけど Unicode => Shift_JIS の変換には色々と問題があるので無難に CP932 をチョイスしました）

Encode にも受け取ったデータを自動で判別する機能は存在しますが、精度があんまりよろしくないのでそれこそ文字化けの原因になります。ですんで例のようにキチンと incode を明示してやる事を激しく推奨です。

メールなどで ISO-2022-JP に変換したいのならば、サブルーチン jis を
sub jis {
  $str = $_[0];
  Encode::from_to($value, "shiftjis", "iso-2022-jp");
  return $str;
  }

こんな感じで良いと思うのですが…
ちなみにメールのヘッダ内で使用する日本語は上記のルーチンだけでは不正な書式になります。
ISO-2022-JP に変換した後にBASE64エンコードしてやる必要があります。
で、一応 BASE64 エンコードするサブルーチンの例も記述
sub base64 {
  $str = $_[0];
  $str = encode_base64($str, "");
  $str = '=?iso-2022-jp?B?' . $subject2 . '?=';
  return $str;
  }

Encodeモジュールで日本語化したい

#1です

#1です

すみません#1です

文字化け対策で何故 Encode モジュールを使用するのでしょう？

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング