プロが教える店舗&オフィスのセキュリティ対策術

HTMLデータの中から、狙った文章をPerlで抜き出すプログラムを書こうとしています。

(1)urlが並んでいるテキストファイルから、1番上を$urlに入れる
(2)urlからHTMLを取得する
(3)HTMLを解析、文字列の取得
(4)「author: title: 」のように、形を変えて、新たなテキストファイルに1行printする。
(5)すべてのurlに繰り返す

と動くプログラムです。
LWP::Simpleのget関数を使うか、wgetを使うかも考えています。

ここでの質問は、(1)の、URLを上から順に引っ張ってくるプログラムの作り方を聞きたいです。
$i行目の改行までを取得、という考えでいいでしょうか?


ベターな方法や、少しでも参考になる情報がありましたら教えていただけると嬉しいです。

A 回答 (1件)

「URLを上から順に引っ張ってくる」の意味が今ひとつよくわからないんだけど, 「1行ずつ読み込む」と解釈すれば


open my $fh, '<', 'utl.txt';
while (my $url = <$fh>) {
chomp $url;
ファイルを取得してなんかする
}
close $fh;
という形でいいんじゃないかな.
    • good
    • 0
この回答へのお礼

Tacosan様

ありがとうございます!
補足させていただきますと、
「1行目のURLからほしいデータを抽出し、新たなファイルに書く」
「2行目のURLからほしいデータを抽出し、新たなファイルに書く」
「n行目のURLからほしいデータを抽出し、新たなファイルに書く」
を、URL繰り返すものです。

教えていただいたコードを使わせていただこうと思います。
ありがとうございました!

お礼日時:2009/07/03 14:04

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!