Perlで変数内の日本語が文字コードに変換される

解決済

質問者：takeo1983
質問日時：2012/05/06 22:27
回答数：4件

お世話になります。Googleやｂｉｎｇなどで調べて見ましたが検討もつかず困っております。

PerlでDBIを使用し、データベースのテーブルＡに対してSelectした場合に、fetchrow_hashrefを使用しSelect結果を取得した場合に、テーブルの列名が文字ではなく文字コードが格納されてしまいます。

テーブルＡの列名はUTF-8の日本語文字になります。

以下、列名
ID｜登録者｜登録日

fetchrow_hashrefを使用した場合、以下のように返ってきます。
$VAR1 = {
"\x{767b}\x{9332}\x{8005}" => '106.190.xxx.xxx',
"\x{767b}\x{9332}\x{65e5}" => '2012-05-06 00:52:40.39496',
'id' => 38
};

問題は目的のデータに対して列名（'登録日'など）で参照する事が出来ない事ですが、今のままテーブルの列名は日本語のままで回避する方法をご教授いただけないでしょうか？

hashrefを使いたい理由はテーブルの列順番が変わった場合でもプログラム上の変更を減らすために、列名にて参照したいためです。ですのでarray系の取得メソッドはなるべく使わないようにしたいです。

出来ればなぜこのようなことが起こるのか原因も含めてご教授いただけると大変助かります。。

ちなみに、データベースはPostgreSQLの8.2で日本語文字に対応していることは、自分でselectなどのコマンドを叩き確認済みです。

ヒントでもかまいませんので、どうかよろしくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： kmee
回答日時：2012/05/06 23:15

fetchrow_hashrefが「一般的」では無い文字(≒いわゆる半角英数記号以外)を\でエスケープした形式で表示しているだけで、実際には

\x{767b}→登
です。
$a = $VAR1->{'登録日'}とすれば $aに2012-05-06 00:52:40.39496が入ります。
(use utf8;してあって、スクリプト自体がUTF-8で記述されている場合)

このあたりの扱いは少々ややこしいので、下記のようなサイトや参考書をよく読むことをお勧めします
http://perldoc.jp/docs/perl/5.10.0/perlunicode.pod
http://www.rwds.net/kuroita/program/Perl_unicode …

この回答への補足

ソースコード事態はUTF8で記述していましたので、
use utf8;にする事で取得出来ることが出来ました！
ありがとうございます！

ただ・・・。取得することが出来ましたが、取得した値が日本語の場合は、逆に文字化けしてしまいました。。。

ちなみに、use utf8;をコメントアウトし、fetchrow_arrayrefにて取得すると、文字化けは起こらなかったのでutf8をuseすることによって値に何らかの加工をしているみたいですが、、、ご存知でしょうか？？

ちなみに、utf8フラグがついているからかな？と思い
utf8::encode
にて調べてみましたがfalse値が返ってきていました。。。

補足日時：2012/05/06 23:51

通報する

- 0
- 件

通報する

この回答へのお礼

ご回答ありがとうございます！

通報する

お礼日時：2012/05/06 23:48

No.4

回答者： Tacosan
回答日時：2012/05/07 23:12

ひとえに「文字化け」といってもいろんな状況が考えられるのですが, どう「化け」ているのでしょうか? 極端には「実はなにもおかしくない (化けてもいない) んだけど確認のしかたが間違っているために化けているように見える」かもしれないですし.

本当に化けているとしたらバイナリレベルでコードを知りたいところ.

- 0
- 件

通報する

No.3

回答者： Tacosan
回答日時：2012/05/07 11:17

あ, \x{767b} って UTF-8 じゃなくて UTF-16 なんだ....

ところで, #1 への補足にある
「(use utf8; すると) 取得した値が日本語の場合は、逆に文字化けしてしまいました」
ってのは, 具体的にはどんな状態なんでしょうか? 「逆に」の意味が分からんのだけど, 質問の時点で出ている
$VAR1 = {
"\x{767b}\x{9332}\x{8005}" => '106.190.xxx.xxx',
"\x{767b}\x{9332}\x{65e5}" => '2012-05-06 00:52:40.39496',
'id' => 38
};
は「文字化け」ではないという認識でしょうか?

そもそも「データベースにどんな文字コードで入れたのか」とかから始まりそうな感じもするんだけど....

この回答への補足

use utf8;
を行うことによって、
「fetchrow_hashref->{'登録者'}」で参照し、値を取得することが出来ました。
値は「106.190.xxx.xxx」

ただ、データベースの内容に以下のようにデータが入っている場合、

ID|名前|登録者|登録日
'38' 'なまえ' '106.190.xxx.xxx' '2012-05-06 00:52:40.39496'

に「名前」を「fetchrow_hashref->{'名前'}」で取得した場合に値は「なまえ」が取得出来ると思いましたが、
文字化けした値が取得出来ました。

データベース・ソースコードはUTF8で作成しており、テーブルの中の文字列もUTF-8になっております。

そういう意味で、
use utf8;
を行わなければhashのkey値は"\x{767b}\x{9332}\x{8005}"の状態。

use utf8;
を行えばhashのkey値は"登録者"で参照出来ますが値は文字化けしてるので参照は出来るが値が文字化けしてしまうというという意味で「逆」と使いました。
※うまく伝えられずすみません。

また、
上記のテーブルの状態でも
use utf8;
をコメントアウトし、
「fetchrow_arrayref->[1]」で参照すると、「なまえ」と正しい値が取得することが出来ましたので、
use utf8;
を行うことによって何らかの値に加工を行なっているのではと考えつくことが出来ましたがもう少しお力添えをお願い出来ればと思います。

すみませんが、よろしくお願い致します。。。