HTMLからimgのsrcのみを正規表現で抽出する

解決済

質問者：hiroko_ss
質問日時：2014/09/22 21:24
回答数：3件

Webサイトから画像だけをダウンロードするツールをJavaの勉強がてら作成しており、HTML内に含まれた全てのimgタグのsrc部分のみを抽出したいと考えています。
現在、正規表現を使ってHTMLからimgタグのsrcを抽出し、srcの一覧を取得するようなメソッドを作成していますが、私の実力が及ばないばかりに上手く出来ずに困っております。

以下のようなHTMLが有った場合の例を挙げます。
<html>
<body>
<img src="hoge.jpeg">
<img src="./hoge.jpeg">
<img src="./fuga/hoge.jpeg">
<img src="../fuga/hoge.jpeg">
<img src="http://fuga/hoge.jpeg">
</body>
</html>

上記のHTMLがString型に格納されてますので、
作成した抽出用メソッドの引数に渡すと以下のようなString[]型の文字列を返す想定をしています。
[0]=hoge.jpeg
[1]=./hoge.jpeg
[2]=./fuga/hoge.jpeg
[3]=../fuga/hoge.jpeg
[4]=http://fuga/hoge.jpeg

しかしながら現在、以下のような結果となり、最後の1件しか取得できていない状況です。
[0]=http://fuga/hoge.jpeg

恐らく正規表現が正しくないせいだとは思いますが、どのようにすれば取得できるのか分からず困っています。
もしこの問題についての解決策をご存じの方がおりましたら、ご教示いただけましたら幸いです。
よろしくお願いします

以下、作成中のテストソースです。
//----------------------------------------------------
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {
public static void main(String[] args) {
String testHtml = "<html><body><img src=\"hoge.jpeg\"><img src=\"./hoge.jpeg\"><img src=\"./fuga/hoge.jpeg\"><img src=\"../fuga/hoge.jpeg\"><img src=\"http://fuga/hoge.jpeg\"></body></html>";
String[] res = extractImgSrc(testHtml);

// 結果表示
for (int i = 0; i < res.length; i++) {
System.out.println("res[" + i + "]=" + res[i]);
}
}

// imgタグのsrcからurlを抽出
public static String[] extractImgSrc(String html) {
List<String> result = new ArrayList<String>();
Pattern p = Pattern.compile("<\\s*img.*src\\s*=\\s*([\\\"'])?([^ \\\"']*)[^>]*>");
Matcher m = p.matcher(html);
while (m.find()) {
result.add(m.group(2));
}

return result.toArray(new String[result.size()]);
}
}

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.3ベストアンサー

回答者： Ogre7077
回答日時：2014/09/24 17:05

正規表現 /<\simg.src\s=\s(["'])?([^ "'])[^>]>/ ですが、

非常に危険な /.*/ という指定を含んでいます。

これは「可能な限り長く一致させる」挙動となるので、
例題の場合なら以下の範囲を纏めて拾ってしまいます。
<img(ここから) src="..."><img src="...">...<img (ここまで)src="ttp://fuga/hoge.jpeg">

なので
/.*/
ではなく
/[^>]*/
とすれば想定どおりの挙動となるでしょう。

余談ではありますが、
この種の処理を行うなら HTML パーサーを介して、
DOM なり XPath を使うことをオススメします。

- 0
- 件

通報する

この回答へのお礼

ご丁寧な解説ありがとうございます。
非常に分かりやすく勉強になりました。
今回はimgのurlのみが必要でしたので、パーサについてはNo.2の方に返答しておりますとおりのため、私の今後の課題としたいと思います。
本当に有難うございました。

通報する

お礼日時：2014/09/24 21:51

No.2

回答者： goro123123123
回答日時：2014/09/22 23:54

なんでわざわざ正規表現?

DOM使った方が良いんじゃないのか?

この回答への補足

お返事ありがとうございます。
パーサを利用した解析についても調べていた中に入ってはいましたが、理由としては長いプログラムになり初心者の私の頭では追いつかなかったため、今回は選択肢から外しました(^^;)
以下に拝見していたサイトを引用させていただき、後学の課題とさせていただきます。
http://d.hatena.ne.jp/excer/20110410/1302416295

補足日時：2014/09/24 21:49

通報する