文字列の抽出

Question

指定したファイルの中から'<'と'>'とで囲まれた部分文字列を抽出したいのですが方法がわかりません。どのようにしたらできるでしょうか？
＊ファイルは制御コードが混じっているのでバイナリとして扱わないといけないかもしれません。
よろしくお願い致します。

-------------------------------------------------
open(IN, "test.dat");
open(OUT, "> out.txt");
binmode(IN);

while (<IN>) {
/^<(\w+)>$/;
print OUT "$1\n";
}

close(IN);
close(OUT);

arcsin · Accepted Answer

#3 です。

　回答にsが抜けてました。
while (/<(.*?)>/g)　ではなく, while (/<(.*?)>/gs)です。
ごめんなさい。

> ●対応する'<'と'>'で抽出し、ごみの'<'や'>'は無視する

これは<>がネストしてしまった場合等は一番内側の<～>内にしておくという解釈でよろしいでしょうか？抽出したい<>の中に <や>は入らないということ前提ですが、 while部分を
while(/<([^<>]*)>/sg){
とするとどうでしょう sは複数行にまたがってマッチさせるためのオプションです。binmodeを使っている場合は不要なので /<([^<>]*)>/g でも大丈夫です。

●'<'と'>'の間に'@'がある場合のみ正規なものとする
でよいのなら,

while (/<([^<>]*?@[^<>]*?)>/sg)

とするとどうでしょう。sは上と同じ理由でbinmodeの場合は省いてもかまいません。

--------------
前者と後者でのテスト結果も一応残しておきます。
■ データ
<aa><bb>
<cccc>
<ddd

ddd>
eee<f
fff>
<gggg<hhhh>iiiii<jjj@jjjj>kkkk>
lllll<m<n@nn>ooo<p> >><<qqq@qq>rrr<s
@sss>ttt@uu<vv@vv>wwww>

■前者
aa
bb
cccc
ddd

ddd
f
fff
hhhh
jjj@jjjj
n@nn
p
qqq@qq
s
@sss
vv@vv

■後者
jjj@jjjj
n@nn
qqq@qq
s
@sss
vv@vv

>><rrr~~ttt@uuwwww> ■前者 aa bb cccc ddd ddd f fff hhhh jjj@jjjj n@nn p qqq@qq s @sss vv@vv ■後者 jjj@jjjj n@nn qqq@qq s @sss vv@vv~~

noboru2000 · Answer

ファイルを全部読んでしまえばいいんじゃないでしょうか? (<> で読むと改行コードで区切れてしまいます)。

それから <[^>]*> のパターンで中味を全部取り出せばいいと思います。

例) @data に < > で括られたデータを全て入れる。

open(F, '< ファイル名') or die;
binmode(F);
read(F, $buf, -s F);
close(F);

while ($buf =~ /<([^>]*)>/g) {
　push(@data, $1);
}

twinkleluz · Answer

質問者さんのソースコードでは、以下のような問題があります。・ファイルを一行ずつ読んでいるので、複数行にまたがる"<"と">"の間の文字列抽出ができない行ごとの抽出なら問題ありませんが、複数行をまたがる抽出なら、変数にファイルの内容を一度に読み込む必要があります。 Perlには読み込む時の「レコード区切り文字」が変数$/で指定されています。デフォルトは改行が使われていますが、これを無効にすることでファイルの内容を一度に読むことができます。 undef($/); ・マッチングに使っている正規表現の誤り /^<(\w+)>$/ これは、「変数の中身が'<'で始まり、その中の文字がすべて半角英数文字で、変数の一番最後が'>'で終わる」ということを表します。ファイルの中身が'<'で始まり、'>'で終わっていなければならないので、文字列中の'<'と'>'で囲まれた文字は抽出できません。また、'<''>'の間に制御文字が入っていた場合も抽出できません。また、\wでは制御コードをマッチングさせることができません。正しくは、 /<(.+)>/s でいいと思います。 '.'は改行コードを除くすべての文字にマッチします（制御コード含む） /sをつけているのは、'.'に改行コードをマッチさせるためです。なお、制御コードが0x00-0x7Fの間なら、binmodeを使う必要はありません。修正後のソースは以下のような感じになります。 ------------------------------------------ undef($/); open(IN, "test.dat"); open(OUT, "> out.txt"); while () { /<(.+)>/s; print OUT "$1 "; } close(IN); close(OUT);

arcsin · Answer

自分ならこうでしょうか。

#2さんの変数に一度に読むテクを借りて。

undef($/);
open(IN, "test.dat");
$_ = <IN>;
open(OUT, "> out.txt");

while (/<(.*?)>/g) {
print OUT "$1\n";
}

close(IN);
close(OUT);
$/='\n'; #一応元に戻しておく

.*? の?は最小マッチです。?がないと、最大マッチとなってしまうので?が必要となります。

文字列の抽出

ファイルを全部読んでしまえばいいんじゃないでしょうか? (<> で読むと改行コードで区切れてしまいます)。

質問者さんのソースコードでは、以下のような問題があります。

自分ならこうでしょうか。

#3 です。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング