プリン+醤油=ウニみたいな組み合わせメニューを教えて!

Webサイトから画像だけをダウンロードするツールをJavaの勉強がてら作成しており、HTML内に含まれた全てのimgタグのsrc部分のみを抽出したいと考えています。
現在、正規表現を使ってHTMLからimgタグのsrcを抽出し、srcの一覧を取得するようなメソッドを作成していますが、私の実力が及ばないばかりに上手く出来ずに困っております。

以下のようなHTMLが有った場合の例を挙げます。
<html>
<body>
<img src="hoge.jpeg">
<img src="./hoge.jpeg">
<img src="./fuga/hoge.jpeg">
<img src="../fuga/hoge.jpeg">
<img src="http://fuga/hoge.jpeg">
</body>
</html>

上記のHTMLがString型に格納されてますので、
作成した抽出用メソッドの引数に渡すと以下のようなString[]型の文字列を返す想定をしています。
[0]=hoge.jpeg
[1]=./hoge.jpeg
[2]=./fuga/hoge.jpeg
[3]=../fuga/hoge.jpeg
[4]=http://fuga/hoge.jpeg

しかしながら現在、以下のような結果となり、最後の1件しか取得できていない状況です。
[0]=http://fuga/hoge.jpeg

恐らく正規表現が正しくないせいだとは思いますが、どのようにすれば取得できるのか分からず困っています。
もしこの問題についての解決策をご存じの方がおりましたら、ご教示いただけましたら幸いです。
よろしくお願いします

以下、作成中のテストソースです。
//----------------------------------------------------
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Main {
public static void main(String[] args) {
String testHtml = "<html><body><img src=\"hoge.jpeg\"><img src=\"./hoge.jpeg\"><img src=\"./fuga/hoge.jpeg\"><img src=\"../fuga/hoge.jpeg\"><img src=\"http://fuga/hoge.jpeg\"></body></html>";
String[] res = extractImgSrc(testHtml);

// 結果表示
for (int i = 0; i < res.length; i++) {
System.out.println("res[" + i + "]=" + res[i]);
}
}

// imgタグのsrcからurlを抽出
public static String[] extractImgSrc(String html) {
List<String> result = new ArrayList<String>();
Pattern p = Pattern.compile("<\\s*img.*src\\s*=\\s*([\\\"'])?([^ \\\"']*)[^>]*>");
Matcher m = p.matcher(html);
while (m.find()) {
result.add(m.group(2));
}

return result.toArray(new String[result.size()]);
}
}

A 回答 (3件)

正規表現 /<\s*img.*src\s*=\s*(["'])?([^ "']*)[^>]*>/ ですが、


非常に危険な /.*/ という指定を含んでいます。

これは「可能な限り長く一致させる」挙動となるので、
例題の場合なら以下の範囲を纏めて拾ってしまいます。
<img(ここから) src="..."><img src="...">...<img (ここまで)src="ttp://fuga/hoge.jpeg">

なので
/.*/
ではなく
/[^>]*/
とすれば想定どおりの挙動となるでしょう。


余談ではありますが、
この種の処理を行うなら HTML パーサーを介して、
DOM なり XPath を使うことをオススメします。
    • good
    • 0
この回答へのお礼

ご丁寧な解説ありがとうございます。
非常に分かりやすく勉強になりました。
今回はimgのurlのみが必要でしたので、パーサについてはNo.2の方に返答しておりますとおりのため、私の今後の課題としたいと思います。
本当に有難うございました。

お礼日時:2014/09/24 21:51

なんでわざわざ正規表現?


DOM使った方が良いんじゃないのか?

この回答への補足

お返事ありがとうございます。
パーサを利用した解析についても調べていた中に入ってはいましたが、理由としては長いプログラムになり初心者の私の頭では追いつかなかったため、今回は選択肢から外しました(^^;)
以下に拝見していたサイトを引用させていただき、後学の課題とさせていただきます。
http://d.hatena.ne.jp/excer/20110410/1302416295

補足日時:2014/09/24 21:49
    • good
    • 0

Pattern p = Pattern.compile("<\\s*img.*src\\s*=\\s*([\\\"'])?([^ \\\"']*)[^>]*>");



の img.* がおかしい。
img[^>]* では?
    • good
    • 1
この回答へのお礼

お返事感謝です。
ご指摘の箇所を修正したところ想定どおりに動きました。
助かりました、有難うございました。

お礼日時:2014/09/24 21:48

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報