電子書籍の厳選無料作品が豊富!

ブログの記事のURLがたくさんあります。
url.txt内部に
---
http://blog.jp/foo/4321.html
http://site.jp/foo/bar/17167.html

----
みたいに一行ずつ2000行ほどずらっとあるのですが、

1./がある場合はその最後の指定されたURLの/以下の部分を削除する。ない場合はそのまま。
2.削除した結果、同じURLがあったらそれを削除する
3.そのURLのタイトル(<title>タグの文字列)を取得して、URL+タイトルの形で出力する

という3工程を踏んで、自分がよくいくブログのURLとブログ名がほしいです。
http://blog.jp/foo/4321.htmlならhttp://blog.jp/foo/
http://site.jp/foo/bar/17167.htmlならhttp://site.jp/foo/bar/になります。

ですがパースがうまくいかないのか同じサイトへの過剰アクセスを避けるためにsleep(1)を入れたせいかはわかりませんが、自分ではうまく成功しませんでした。

模範回答が知りたいです。このようなphpのコードをどなたかご教示ください。

どうかよろしくお願いします。

A 回答 (1件)

file_get_contentsでソースを取得して後は


「DOM拡張モジュール」や「PHP Simple HTML DOM Parser」でhtmlを解析して必要なタグの情報を取得するだけ
    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2011/12/30 18:42

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!