phpのHTMLからのRSS linkタグ抽出

締切済

質問者：noname#172236
質問日時：2013/01/06 16:59
回答数：2件

こんにちは

phpを使ってrssを配信している
サイトのhtmlデータを取得し、

rssのリンクが書いてある<link>タグを抽出しようとしています。

preg_matchなどを使った抽出の時に使っている正規表現は一応、
|.*<link rel=[\"\']alternate[\"\'](.*rss.*xml.*)?>|s
なのですが、上記のrss xmlという文字列の順序や、
rssのバージョンを考えずに取得できる方法、
タグ内の他の属性値、属性値の順序など、
人によって書き方が異なり、
取得が難しいです。

これ以外の、より簡単な取得方法や、抽出におけるよい正規表現を知っておられる方、
どうか抽出方法を教えていただけませんでしょうか？

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

最新から表示
回答順に表示

No.1

回答者： corokorocoro
回答日時：2013/01/06 20:32

なんでそんなので正規表現使うの?

DOM知らないの?

この回答への補足

>なんでそんなので正規表現使うの?

rssの<link>タグの記入方法が人によってバラバラだから
めんどくさいので正規表現でまとめて取得しようとした。

title="RSS"とか書いている人がいたり、rssのデータの拡張子が記載されてなかったり、当然rssのバージョンもバラバラだから。

汎用的な取得方法を教えてほしいのです。

補足日時：2013/01/06 21:11

通報する