HTMLから自動的に文章取得

解決済

質問者：tsuchy231
質問日時：2009/07/03 11:08
回答数：1件

HTMLデータの中から、狙った文章をPerlで抜き出すプログラムを書こうとしています。

(1)urlが並んでいるテキストファイルから、１番上を$urlに入れる
(2)urlからHTMLを取得する
(3)HTMLを解析、文字列の取得
(4)「author: title: 」のように、形を変えて、新たなテキストファイルに１行printする。
(5)すべてのurlに繰り返す

と動くプログラムです。
LWP::Simpleのget関数を使うか、wgetを使うかも考えています。

ここでの質問は、(1)の、URLを上から順に引っ張ってくるプログラムの作り方を聞きたいです。
$i行目の改行までを取得、という考えでいいでしょうか？

ベターな方法や、少しでも参考になる情報がありましたら教えていただけると嬉しいです。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

No.1ベストアンサー

回答者： Tacosan
回答日時：2009/07/03 13:29

「URLを上から順に引っ張ってくる」の意味が今ひとつよくわからないんだけど, 「1行ずつ読み込む」と解釈すれば

open my $fh, '<', 'utl.txt';
while (my $url = <$fh>) {
chomp $url;
ファイルを取得してなんかする
}
close $fh;
という形でいいんじゃないかな.

- 0
- 件

通報する

この回答へのお礼

Tacosan様

ありがとうございます！
補足させていただきますと、
「１行目のURLからほしいデータを抽出し、新たなファイルに書く」
「２行目のURLからほしいデータを抽出し、新たなファイルに書く」
「ｎ行目のURLからほしいデータを抽出し、新たなファイルに書く」
を、URL繰り返すものです。

教えていただいたコードを使わせていただこうと思います。
ありがとうございました！

通報する

お礼日時：2009/07/03 14:04

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！