perl5.8.8を使っています。日本語にマッチする正規表現を書きたいのですが、どうしてもマッチしません。例えば、以下のファイルtest.txtから「さしすせそ」だけを抽出し、表示させたいです。 ---------test.txt-------------------------------- あいうえおかきくけこさしすせそたちつてと -------------------------------------------------- ----------test.pl-------------------------------- use strict; use warnings; open(FILE, 'test.txt') or die "$!"; my @file = ; close(FILE); foreach my $line (@file){ if($line =~ /^さ/){ print "$line\n"; } } ------------------------------------------------ このtest.plを実行しても「さしすせそ」を抽出することができません。どうしたらよいのでしょうか? 自宅の新しいバージョンのperlだとできるのですが会社のperlは5.8.8で顧客環境でもあるのでバージョンアップもできません。すみませんが、よろしくお願いいたします。

perl 5.8.8 日本語マッチ

解決済

質問者：koun
質問日時：2013/05/17 21:55
回答数：4件

perl5.8.8を使っています。
日本語にマッチする正規表現を書きたいのですが、どうしてもマッチしません。

例えば、以下のファイルtest.txtから「さしすせそ」だけを抽出し、表示させたいです。
---------test.txt--------------------------------
あいうえお
かきくけこ
さしすせそ
たちつてと
--------------------------------------------------

----------test.pl--------------------------------
use strict;
use warnings;

open(FILE, 'test.txt') or die "$!";
my @file = <FILE>;
close(FILE);

foreach my $line (@file){
if($line =~ /^さ/){
print "$line\n";
}
}
------------------------------------------------

このtest.plを実行しても「さしすせそ」を抽出することが
できません。
どうしたらよいのでしょうか?
自宅の新しいバージョンのperlだとできるのですが
会社のperlは5.8.8で顧客環境でもあるのでバージョンアップも
できません。

すみませんが、よろしくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

No.1

回答者： Tacosan
回答日時：2013/05/17 23:54

5.8 なら文字コードを適切に設定すればいけるんじゃなかったかなぁ....

- 0
- 件

通報する

No.2

回答者： fdvk354
回答日時：2013/05/18 02:33

マッチをさせる前に

chomp $line;をしてみてはどうでしょうか？

- 0
- 件

通報する

No.3ベストアンサー

回答者： kmee
回答日時：2013/05/18 02:56

この内容なら、もっと古いバージョンでも動きそうなのですが。

「さ」は、いわゆる「だめ文字」ではないですし。
test.txtとtest.plとで文字コードが違ってたりしませんか?

もっと複雑なのになると、このままでは、日本語がバイト毎に分解されて処理されるので、問題になります。
例: 'あい' =~ /^(..)/ は、$1='あい' にならない。$1='あ'の1バイト目 'あ'の2バイト目になる
その場合は、UTF8フラグ付きにencode/decodeして使えば日本語の1文字を「1文字」として扱ってくれます。
5.8.8だと、UTF8フラグ付き文字列も使えるレベルになっていたはずです。

参考URL：http://www.rwds.net/kuroita/program/Perl_unicode …

- 0
- 件

通報する

No.4

回答者： kumoz
回答日時：2013/05/19 19:04

ファイルの文字コードとプログラムの文字コードの不一致が原因だと思います。

Encode::Guess モジュールを使えば、文字コードを調べることができます。なお、私の手元にある Linux 上の Perl v5.8.1 でも Encode::Guess は装備済なので、v5.8.8 であれば使えると思います。

use Encode::Guess qw/euc-jp shiftjis 7bit-jis/;
...
my $q = Encode::Guess->guess(join('', @file));
print ref($q) ? $q->name : $q;

上記のようなコードを元のプログラムに組み込むと、判別に成功すればファイルの文字コードを表示してくれます。