htmファイルの中から、リンクされたURL情報を抽出するのが今回の目的です。ご相談したいのは、URL情報が一つの行中に複数ある場合の抽出方法です。ちなみに「一つの行にあるリンクが一つだけ」の場合ですと、正規表現でURLデータを正しく抽出できるところまで来ています。ですが一つの行にあるリンクが２つ以上あった場合は、最長一致のルールに従って、うまく抽出できません。具体的に申し上げると、ケース１：ほげが抽出できる。ケース２：ほげほげほげほげが抽出される。（本当は２つを別々に取り出したい）

一つの行にURLが複数ある場合の、URL抽出方法は？

解決済

質問者：kumar
質問日時：2006/03/31 16:39
回答数：1件

htmファイルの中から、リンクされたURL情報を抽出するのが今回の目的です。
ご相談したいのは、URL情報が一つの行中に複数ある場合の抽出方法です。

ちなみに「一つの行にある<a href>リンクが一つだけ」の場合ですと、正規表現
<a +href=('|\").*('|\") *>
でURLデータを正しく抽出できるところまで来ています。
ですが一つの行にある<a href>リンクが２つ以上あった場合は、最長一致のルールに従って、うまく抽出できません。

具体的に申し上げると、
ケース１：<a href="www.hoge.htm">ほげ</a>
<a href="www.hoge.htm">
が抽出できる。

ケース２：<a href="www.hoge.htm">ほげ</a><a href="www.hogehoge.htm">ほげほげ</a>
<a href="www.hoge.htm">ほげ</a><a href="www.hogehoge.htm">
が抽出される。（本当は２つを別々に取り出したい）