機種依存文字の文字コード変換

Question

現在、Shift-JISでCGIを作成しています。言語はPerlです。HTMLファイルから送信された文字をDBに登録するのですが、CGIをShift-JISで作成しているのに、DBがEUCとなっているため、jcode.plを利用して文字コードを変換しています。
しかし、文字が機種依存文字である場合、jcode.plでは文字コード変換ができないようで文字化けを起こした文字をDBに登録しようとしてエラーを起こしてしまいます。
何とか機種依存文字をコード変換したいのですが、可能でしょうか？

mmrk#2 · Accepted Answer

Unicode::Japanese はご存知ですか？
”はしごだか”などの環境依存文字が混在する場合Jcodeでは変換できませんので、Unicode::Japaneseを使うと便利です。

http://search.cpan.org/~hio/Unicode-Japanese-0.40/

PurePerlとしても動作するので、サーバへのインストールも不要です。上記アドレスからDL・解凍後、lib内の Japanese.pm をコピーしてきて利用元のソースと同じパスに置く、あるいは任意のパスに置いてuse libするだけで利用可能です。


use Unicode::Japanese;

my $x = "変換元文字列";
my $s = Unicode::Japanese->new($x, "sjis");

open(FILE, ">./euc.txt");
print FILE $s->euc;
close(FILE);

こんな感じ。使い方はJcodeとほぼ同じです。

参考URL：http://search.cpan.org/~hio/Unicode-Japanese-0.40/

sakusaker7 · Answer

#3です。
今確認してみましたが、しっかりXSコードの部分がありましたので
単純にコピーするだけではダメでしょうね。

ということで#4の回答にあるJapanse::Unicodeを使ってみては?

sakusaker7 · Answer

jocde.plではsjis→euc-jpへの変換はある計算式を対象のキャラクタの
コードに対して適用することで求めています。
#Encode.pmやJcode.pmは違います
このため、いわゆる機種依存文字の中でコード順で前のほうにあるもの、
たとえば丸付き数字やローマ数字などは問題なく変換されます。

しかしながら、はしごだかのようにコード順で最後のほうにあるもの
(IBM拡張漢字)に関しては、その計算式を適用したときに正しい値を
求めることができずに変換に失敗します。
#もっとも変換前に弾いちゃってますが

ということでその辺修正しない限りは jcode.plでの変換はできません。

で代替案。
NARUSE, Yui / Encode-EUCJPMS - search.cpan.org
http://search.cpan.org/~naruse/Encode-EUCJPMS/

このモジュールを使えば、IBM拡張漢字も問題なく変換できると思います。
が、使用しているサーバー環境等の問題でインストールすることができないのなら、
さらに別の手段を考える必要があります。

nkfを使うというのもひとつの手でしょうが、モジュールをインストールできない環境なら
外部プログラムでnkfが使えるようになっているかどうかちょっと疑問。

guci-ok · Answer

jcode.pl/Jcode.pmは、機種依存文字に（未だ）対応していません。

私はNKFを使う事が多いです。
機種依存文字に対応しているし、メール送信で必要になるBase64エンコーディングなども出来ます。
これひとつでＣＧＩプログラムは大体間に合います。

sakusaker7 · Answer

具体的にどんな文字がダメなのかわかりますか?

use strict;

require 'jcode.pl';
print $jcode::version, "
";

my $str = "(1)(10)嵜";

my $cvt = jcode::euc($str, 'sjis');
print $cvt, "
";

my $cvt = jcode::convert(\$str, 'euc');
print $str, "
";

こんなんで試してみましたが問題なく変換されているようです。

ひょっとしてデータベースの方で蹴っているということはないですか?

機種依存文字の文字コード変換

Unicode::Japanese はご存知ですか？

#3です。

jocde.plではsjis→euc-jpへの変換はある計算式を対象のキャラクタの

jcode.pl/Jcode.pmは、機種依存文字に（未だ）対応していません。

具体的にどんな文字がダメなのかわかりますか?

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング