テキストファイルから日本語部分を抽出

Question

英語と日本語が交ざっているテキストから日本語部分を抽出するプログラムをPerlで書きたいと思って以下のようなプログラムを組みました。

---
#!/usr/bin/perl

print "Input file name: ";
$ifname = <STDIN>;

#print "Output file name: ";
#$ofname = <STDIN>;
$ofname = ">> tmp.txt";

open(INPUTFILE, $ifname);
open(OUTPUTFILE, $ofname);

while($c = getc(INPUTFILE)){
if('a'<= $c && $c <= 'z' ||
'A'<= $c && $c <= 'Z'){
}else{
print OUTPUTFILE $c;
}
}

close(INPUTFILE);
close(OUTPUTFILE);
---

これを実行したところ、日本語も英語も書き出されず、数字だけ書き出されてしまいました。

日本語部分だけを抽出するようにするにはどのようにすれば良いでしょうか。
ご教示願います。

Ethersky · Accepted Answer

open(IN, "< euc.txt"); #対象ファイル

open(OUT, "> euc.out.txt"); #出力ファイル
while(<IN>){
tr/\x0D\x0A//d; #改行を一旦削る
tr/[\x00-\x7F]//d; #1バイト文字除去
next if($_ eq ""); #空らな次の行へ
print OUT "$_\n"; #書き出し
}
close(OUT);
close(IN);

1バイト文字を全て消し去ることで2バイト文字が残るという方法です。（注：ファイルはEUCであることが前提。ShiftJISの場合は[\x00-\x7F\xA1-\xDF]になります。）

Ethersky · Answer

補足です。
書き忘れましたがNo.5の方法だと半角カナは残ります。
半角カナも除去したいのなら
s/\x8E[\xA1-\xDF]//g;
を追加してください。
（tr/\x8E[\xA1-\xDF]//d;だと文字化けします）

spinach-chicken · Answer

EUCならShift-JISより簡単かな？
半角カナとかが無いなら

while ・・・
{
　　if ($c >= \x80) {
　　　　　　#0x80以上はEUCの漢字コードとみなす
　　　　　　print OUTPUTFILE $c;
　　}
}

で、いかがでしょう？
本当は１行ずつ読んで正規表現使って処理するのが良いのですが。
（Ethersky様ご紹介のURLが参考になるかと。）

ちなみにこのプログラムだと漢字コードは出力しますが改行とかスペースとかは一切出力されませんのであしからず。

spinach-chicken · Answer

一番簡単なShift-JISのみ抽出するプログラムは以下のようなかんじでしょうか（適当ですが。getcをしているwhileの前後だけです。）


#------------------------
#漢字かどうかのフラグ。
$flg = 0;

while ・・・
{
　　if ($flg == 1) {
　　　　#漢字の２バイト目なのでそのまま出力
　　　　print OUTPUTFILE $c;
　　　　$flg = 0;
　　} else {
　　　　if ($c >= \x80) {
　　　　　　#0x80以上はShift-JISで全角文字の１バイト目とみなす
　　　　　　$flg = 1;
　　　　　　print OUTPUTFILE $c;
　　　　} else {
　　　　　　#漢字２バイト目以外の0x80以下の文字は英字とみなす。
　　　　}
　　}
}

spinach-chicken · Answer

if('a'<= $c && $c <= 'z' ||
'A'<= $c && $c <= 'Z'){
なによりまず、これだと、
「aより大きくかつｚより大きい」または「Ａより大きくかつＺより大きい」
ということで範囲がおかしいかと。

それから日本語は２バイトで表現されますが、文字コードがShiftJISの場合、漢字の文字コード中に、英語の文字コードが含まれるケースがあります。
（例：「イ」の文字コードは0x8343ですが、２バイト目の0x43は英字の「C」の文字コードです。
このプログラムを作る際は、

（１）日本語と英語を分離するファイルは、何の文字コード（Windowsなら普通Shift-JIS）で書かれているか。

（２）分離する英字はどの範囲か（半角全て（数字や記号を含む）か、アルファベット（A-Z）のみか）

という情報が必要です。
そのあたりはいかがでしょうか？

Ethersky · Answer

そのテキスト中の日本語の文字コードは何でしょうか？
それさえ分かっていれば正規表現で抜き出せます。

以下を参照してください。
http://www.din.or.jp/~ohzaki/perl.htm#Character

参考URL：http://www.din.or.jp/~ohzaki/perl.htm#Character

テキストファイルから日本語部分を抽出

open(IN, "< euc.txt"); #対象ファイル

補足です。

EUCならShift-JISより簡単かな？

一番簡単なShift-JISのみ抽出するプログラムは以下のようなかんじでしょうか（適当ですが。

if('a'<= $c && $c <= 'z' ||

この回答への補足

そのテキスト中の日本語の文字コードは何でしょうか？

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング