テキストファイルを読み込み出力で文字化け

Question

まだパールを始めたばかりの初心者ですがよろしくお願いします。現在cgiをPerlで記述します。「｜」区切りのテキストファイルを行ごとに読み込みsplitを利用して項目別に区切っています。そしてそれをhtmlで項目別にテーブルに表示するというのをやっているのですがテキストファイル中に「鋼」という文字があると「・br>」という表示になり勝手にそこで区切られて以降違う項目になってしまいます。それ以外はうまく表示出来ますし前後にスペースやメタ文字があったりとかではなく「鋼」を消すとうまく表示出来ます。処理はこんな感じです。～テーブル内部～ open(IN, a.txt); @getline = ; foreach $linedata (@getline) { 　chop $linedata; 　(@importdata)=split /\|/, $linedata; 　print ""; 　foreach(@importdata){ 　$_=~ s/ //g; 　$_=~ s/ //g; 　print "".$_."
"; } print ""; 解決法方が分かる方、教えていただけないでしょうか？よろしくお願いします。

taseki · Accepted Answer

やりかたはいろいろあると思いますが、とりあえず解りやすいものとして、以下サンプルです。 ------------------------------- # SJIS文字 $character_sjis = "(?:[\x00-\x7F\xA1-\xDF]|(?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]))"; foreach (@getline) { tr/\x0D\x0A//d; $_ .= '|'; print " ", (map "$_ ", /\G($character_sjis*?)\|/g), " "; } ------------------------------- 前後に print " "; と print "

"; があり、@getlineに全行が読み込まれている、という前提です。また、質問文の改行処理をちょっと直してあります（後で全ての改行を削除しているのでchopは不要、また改行文字の削除は「tr/\x0D\x0A//d」が良い）。簡単に説明しますと、まず「SJISの1文字」を正しく認識させる正規表現を$character_sjisにセットしておきます。各項目の分割方法は、【条件】「SJISの1文字」が“0文字以上”続いた後に「｜」があるものという部分を探します。この条件にあったものを１つの項目と見なします。しかしこれでは、一番右の項目だけは、「後に「｜」があるもの」という条件を満たせませんから、まず探す前に末尾に「｜」を付けています。そして探すとき、とても重要なことが２つあります。１．必ず先頭から探し始めなければいけません。なぜなら、たとえば「鋼」という文字の後半部分は 7C ですから、この部分だけで「SJISの1文字」という条件を満たしてしまいます（同じ問題を含む文字が他にもあります）。ちゃんと前半部分も見る、そのためには先頭から順番に探していかなくてはなりません。それをやるのが「\G」です。２．上記の【条件】では、1行全体が条件を満たしてしまいます。つまり、「項目Ａ｜項目Ｂ｜項目Ｃ｜」という文字列“全体”が、条件を満たしています。間にいくつか「｜」が入っているのに、です。そこで、最短マッチを使います。条件を満たす「最短」のものを探す、という指定です。それをやるのが「*?」です（$character_sjisを、“「｜」以外のSJIS”という定義に変える方法もありますが、汎用性を考えるとこのほうがいいと思います）。サンプルでは、分割してtdタグで囲んで出力、というのを1行に書いてしまっていますが、たとえば画像も表示するなどの場合は、わけて書いた方が読みやすいかもしれません。 ------------------------------- @cells = /\G($character_sjis*?)\|/g; print " "; foreach (@cells) { print "$_ "; } print " "; ------------------------------- ******************************************* moon_piyoさんの方法について、大変恐縮なのですが、ちょっと気になる点があります。私が間違っていたら申し訳ありません。１．書かれた正規表現は、　--------------------- 　　Ａ： SJISの2バイト文字である　または、　　Ｂ：「｜」以外の文字である　--------------------- が連続している部分を探していると解釈したのですが、これではＢがすでにＡも含んでいて、Ａが意味をなさないように思えるのですが…。つまり、 /((?:[^\|])+|)\|/g; と書いたのと同じなのでは…。試してみたところ、一番右に「鋼」があると正しくマッチしませんでした。２．上記Ａの「SJISの2バイト文字である」という部分、「｜」の前が1バイト文字だった場合はマッチしないのでは。３．「鋼」という文字は「[^\|]」があるためマッチしなくなってしまうのでは。４．一番右の項目がマッチしないのでは。

taseki · Answer

> 最後の「\|」を取れば～
> こんな感じになります。
> 項目1||項目3|項目4||項目6
> が
> ('項目1','','','項目3','項目4','','','項目6')
> と格納されます。

試していませんが、実際には以下のように格納されていませんか？

“項目1”， “”， “”， “項目3”， “”， “項目4”， “”， “”， “項目6”， “”

すべての項目の部分と、「何もないところ」もマッチするためだと思います。

moon_piyo · Answer

ANo.1のものです

空文字の正規表現= ←なにもない(長さ0)です

それから
 項目1||項目3|項目4||項目6|
と項目のすぐあとに|がついているようですので

(Shift-JIS定義文字 又は |以外の文字 又は 空文字)が1回以上続き それに|が続く、という正規表現ではどうでしょうか(■の部分を に置き換えて 最後に\|をつけました)

(@importdata) = $linedata =~ /((?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]|[^\|]|)+)\|/g;

同様に
(@importdata) = $linedata =~ /((?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]|[^\|])+|)\|/g;

あるいは
(@importdata) = $linedata =~ /((?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]|[^\|])*)\|/g;
とか...

taseki · Answer

まずは、なぜ元のスクリプトではおかしなところで区切られて、ANo.1の方の方法でうまく区切られたのかを理解すれば、自ずと答えは見えてくると思います。

「鋼」という文字は、Shift-JISで 8D7C です。そして「 | 」という文字は 7C です。
8D7C の後半部分を区切り文字と認識してしまった、ということです。
そしてANo.1の方の方法は、Shift-JIS定義文字に続く「 | 」、という判断にしたので、正しく区切られました。

この「Shift-JIS定義文字に続く～」という部分を、「Shift-JIS定義文字があるか、あるいは何もない、に続く～」というようにすればいいことになります。

perlで日本語を扱う場合は注意が必要です。以下が役に立つと思います（CSV区切りの方法も載っています）。
http://www.din.or.jp/~ohzaki/perl.htm

moon_piyo · Answer

こんちは
まずは下記のように変更してみてどうでしょう..

(@importdata)=split /\|/, $linedata;
↓
(@importdata) = $linedata =~ /((?:[\x81-\x9F\xE0-\xFC][\x40-\x7E\x80-\xFC]|[^\|])+)/g;

テキストファイルを読み込み出力で文字化け

やりかたはいろいろあると思いますが、とりあえず解りやすいものとして、

> 最後の「\|」を取れば～

ANo.1のものです

この回答への補足

まずは、なぜ元のスクリプトではおかしなところで区切られて、ANo.1の方の方法でうまく区切られたのかを理解すれば、自ずと答えは見えてくると思います。

こんちは

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング