
Webサイトから画像だけをダウンロードするツールをJavaの勉強がてら作成しており、HTML内に含まれた全てのimgタグのsrc部分のみを抽出したいと考えています。
現在、正規表現を使ってHTMLからimgタグのsrcを抽出し、srcの一覧を取得するようなメソッドを作成していますが、私の実力が及ばないばかりに上手く出来ずに困っております。
以下のようなHTMLが有った場合の例を挙げます。
<html>
<body>
<img src="hoge.jpeg">
<img src="./hoge.jpeg">
<img src="./fuga/hoge.jpeg">
<img src="../fuga/hoge.jpeg">
<img src="http://fuga/hoge.jpeg">
</body>
</html>
上記のHTMLがString型に格納されてますので、
作成した抽出用メソッドの引数に渡すと以下のようなString[]型の文字列を返す想定をしています。
[0]=hoge.jpeg
[1]=./hoge.jpeg
[2]=./fuga/hoge.jpeg
[3]=../fuga/hoge.jpeg
[4]=http://fuga/hoge.jpeg
しかしながら現在、以下のような結果となり、最後の1件しか取得できていない状況です。
[0]=http://fuga/hoge.jpeg
恐らく正規表現が正しくないせいだとは思いますが、どのようにすれば取得できるのか分からず困っています。
もしこの問題についての解決策をご存じの方がおりましたら、ご教示いただけましたら幸いです。
よろしくお願いします
以下、作成中のテストソースです。
//----------------------------------------------------
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Main {
public static void main(String[] args) {
String testHtml = "<html><body><img src=\"hoge.jpeg\"><img src=\"./hoge.jpeg\"><img src=\"./fuga/hoge.jpeg\"><img src=\"../fuga/hoge.jpeg\"><img src=\"http://fuga/hoge.jpeg\"></body></html>";
String[] res = extractImgSrc(testHtml);
// 結果表示
for (int i = 0; i < res.length; i++) {
System.out.println("res[" + i + "]=" + res[i]);
}
}
// imgタグのsrcからurlを抽出
public static String[] extractImgSrc(String html) {
List<String> result = new ArrayList<String>();
Pattern p = Pattern.compile("<\\s*img.*src\\s*=\\s*([\\\"'])?([^ \\\"']*)[^>]*>");
Matcher m = p.matcher(html);
while (m.find()) {
result.add(m.group(2));
}
return result.toArray(new String[result.size()]);
}
}
No.3ベストアンサー
- 回答日時:
正規表現 /<\s*img.*src\s*=\s*(["'])?([^ "']*)[^>]*>/ ですが、
非常に危険な /.*/ という指定を含んでいます。
これは「可能な限り長く一致させる」挙動となるので、
例題の場合なら以下の範囲を纏めて拾ってしまいます。
<img(ここから) src="..."><img src="...">...<img (ここまで)src="ttp://fuga/hoge.jpeg">
なので
/.*/
ではなく
/[^>]*/
とすれば想定どおりの挙動となるでしょう。
余談ではありますが、
この種の処理を行うなら HTML パーサーを介して、
DOM なり XPath を使うことをオススメします。
ご丁寧な解説ありがとうございます。
非常に分かりやすく勉強になりました。
今回はimgのurlのみが必要でしたので、パーサについてはNo.2の方に返答しておりますとおりのため、私の今後の課題としたいと思います。
本当に有難うございました。
No.2
- 回答日時:
なんでわざわざ正規表現?
DOM使った方が良いんじゃないのか?
この回答への補足
お返事ありがとうございます。
パーサを利用した解析についても調べていた中に入ってはいましたが、理由としては長いプログラムになり初心者の私の頭では追いつかなかったため、今回は選択肢から外しました(^^;)
以下に拝見していたサイトを引用させていただき、後学の課題とさせていただきます。
http://d.hatena.ne.jp/excer/20110410/1302416295
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- JavaScript html5に変えるとスライドショーが消えてしまった。 3 2022/03/26 19:53
- Perl 画像が表示でnull; this.src 1 2022/04/19 11:31
- JavaScript jQueryで同じクラス名のものを別物として扱いたい 1 2022/06/17 14:14
- HTML・CSS flex の各子要素を横幅 100% にしたい 1 2022/09/22 21:25
- JavaScript Javascript初心者|jQueryの.val()で値を取得し複数の要素を連結させる方法知りたい 2 2022/06/02 12:06
- JavaScript jQueryでのドラッグアンドドロップについて 1 2022/07/30 09:10
- HTML・CSS 【HTML】【CSS】【Swiper】 元の画像は横1200×縦600なのですが、実際のサイト上に反 5 2022/07/16 13:57
- AJAX JavascriptからPHPへのAjax通信でnullが返ってくる 3 2022/08/03 22:00
- JavaScript htmlとcssに関する質問です 3 2022/12/06 05:36
- PHP タグの追加 1 2022/08/19 11:25
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
javascriptでのパスについて
-
jqueryのスライドショー。html...
-
変化する休日に対応したい。
-
error LNK2019 未解決のシンボ...
-
JavaScriptの記述方法
-
OpenCVでの画像処理について
-
createElementによる空要素の生...
-
画像処理 C言語 元画像の幅...
-
複数画像のランダム複数表示(...
-
色の変更
-
HTMLからimgのsrcのみを正規表...
-
openCVでの白黒画像読み込み
-
FireFoxにプロパティ"src"は存...
-
外部javascriptの重複を防ぐには
-
lightbox 誤作動 JAVA
-
座標を指定して画像を表示する
-
クリックとダブルクリック
-
jQuery要素 + <select></select...
-
jcarouselliteについてです。
-
テキストにマウスオーバーで画...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
HTMLからimgのsrcのみを正規表...
-
複数画像のランダム複数表示(...
-
外部javascriptの重複を防ぐには
-
JavaScriptで変更した属性の元...
-
libjpegライブラリの使い方につ...
-
javaScriptでリンク画像のラン...
-
MFCで画像を表示させているので...
-
画像ファイルをアップロードす...
-
OpenCVで固定枠で画像を操作す...
-
外部ファイルにしたら文字化け...
-
複数の画像をフェードイン・ア...
-
OpenCV での画素値の比較について
-
pythonのpygameでキャラクター...
-
OpenCVでの画像処理について
-
"lightbox"の"CLOSE"ボタンクリ...
-
画像をフィルターを使って入れ...
-
openCVでの白黒画像読み込み
-
createElementによる空要素の生...
-
pythonで、tkinterとpillowの組...
-
jQueryで、画像クリック→フェー...
おすすめ情報