
Webサイトから画像だけをダウンロードするツールをJavaの勉強がてら作成しており、HTML内に含まれた全てのimgタグのsrc部分のみを抽出したいと考えています。
現在、正規表現を使ってHTMLからimgタグのsrcを抽出し、srcの一覧を取得するようなメソッドを作成していますが、私の実力が及ばないばかりに上手く出来ずに困っております。
以下のようなHTMLが有った場合の例を挙げます。
<html>
<body>
<img src="hoge.jpeg">
<img src="./hoge.jpeg">
<img src="./fuga/hoge.jpeg">
<img src="../fuga/hoge.jpeg">
<img src="http://fuga/hoge.jpeg">
</body>
</html>
上記のHTMLがString型に格納されてますので、
作成した抽出用メソッドの引数に渡すと以下のようなString[]型の文字列を返す想定をしています。
[0]=hoge.jpeg
[1]=./hoge.jpeg
[2]=./fuga/hoge.jpeg
[3]=../fuga/hoge.jpeg
[4]=http://fuga/hoge.jpeg
しかしながら現在、以下のような結果となり、最後の1件しか取得できていない状況です。
[0]=http://fuga/hoge.jpeg
恐らく正規表現が正しくないせいだとは思いますが、どのようにすれば取得できるのか分からず困っています。
もしこの問題についての解決策をご存じの方がおりましたら、ご教示いただけましたら幸いです。
よろしくお願いします
以下、作成中のテストソースです。
//----------------------------------------------------
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Main {
public static void main(String[] args) {
String testHtml = "<html><body><img src=\"hoge.jpeg\"><img src=\"./hoge.jpeg\"><img src=\"./fuga/hoge.jpeg\"><img src=\"../fuga/hoge.jpeg\"><img src=\"http://fuga/hoge.jpeg\"></body></html>";
String[] res = extractImgSrc(testHtml);
// 結果表示
for (int i = 0; i < res.length; i++) {
System.out.println("res[" + i + "]=" + res[i]);
}
}
// imgタグのsrcからurlを抽出
public static String[] extractImgSrc(String html) {
List<String> result = new ArrayList<String>();
Pattern p = Pattern.compile("<\\s*img.*src\\s*=\\s*([\\\"'])?([^ \\\"']*)[^>]*>");
Matcher m = p.matcher(html);
while (m.find()) {
result.add(m.group(2));
}
return result.toArray(new String[result.size()]);
}
}
No.3ベストアンサー
- 回答日時:
正規表現 /<\s*img.*src\s*=\s*(["'])?([^ "']*)[^>]*>/ ですが、
非常に危険な /.*/ という指定を含んでいます。
これは「可能な限り長く一致させる」挙動となるので、
例題の場合なら以下の範囲を纏めて拾ってしまいます。
<img(ここから) src="..."><img src="...">...<img (ここまで)src="ttp://fuga/hoge.jpeg">
なので
/.*/
ではなく
/[^>]*/
とすれば想定どおりの挙動となるでしょう。
余談ではありますが、
この種の処理を行うなら HTML パーサーを介して、
DOM なり XPath を使うことをオススメします。
ご丁寧な解説ありがとうございます。
非常に分かりやすく勉強になりました。
今回はimgのurlのみが必要でしたので、パーサについてはNo.2の方に返答しておりますとおりのため、私の今後の課題としたいと思います。
本当に有難うございました。
No.2
- 回答日時:
なんでわざわざ正規表現?
DOM使った方が良いんじゃないのか?
この回答への補足
お返事ありがとうございます。
パーサを利用した解析についても調べていた中に入ってはいましたが、理由としては長いプログラムになり初心者の私の頭では追いつかなかったため、今回は選択肢から外しました(^^;)
以下に拝見していたサイトを引用させていただき、後学の課題とさせていただきます。
http://d.hatena.ne.jp/excer/20110410/1302416295
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
libjpegライブラリの使い方につ...
-
MFCで画像を表示させているので...
-
ボタンをクリックすると、隣の...
-
複数画像のランダム複数表示(...
-
MAX関数を使ってからLEFT JOIN...
-
【jQuery】2分割レイアウトで、...
-
jqueryのsortableで一部ソート...
-
[急ぎ] videoタグで埋め込んだm...
-
iframe内のリンク文字のマウス...
-
jQueryで特定のURLの時のみ表示
-
バッチファイルでカウントアッ...
-
重なった画像にクリックイベン...
-
textareaに画像を表示したい
-
c++std::string型をTCHARに変換...
-
【HP作成】クリックすると下...
-
Slick.jsのオプションrtlについて
-
初期状態でテーブルの非表示
-
window.openで値の渡し方を教え...
-
FireFoxのjavascriptでonloadで...
-
OpenCVを用いたヒストグラムの...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
JavaScriptで変更した属性の元...
-
画像が表示でnull; this.src
-
javascriptでのパスについて
-
pythonの構文の基本事項について
-
MFCで画像を表示させているので...
-
pythonのpygameでキャラクター...
-
Vb.net2005での画像の合成方法
-
nodejsの画像表示は特別なこと...
-
セグメンテーション違反なって...
-
HTMLからimgのsrcのみを正規表...
-
error LNK2019 未解決のシンボ...
-
エクセル スクレイピングについて
-
ラズパイでno module named zbar
-
jQuery 複数のfind()
-
OpenCV での画素値の比較について
-
外部javascriptの重複を防ぐには
-
jqueryのimgpreviewというプラ...
-
jQueryで画像がちゃんとプリロ...
-
imageクラスからiconクラスに変...
-
html内にスライドショーを複数設置
おすすめ情報