htmファイルの中から、リンクされたURL情報を抽出するのが今回の目的です。
ご相談したいのは、URL情報が一つの行中に複数ある場合の抽出方法です。
ちなみに「一つの行にある<a href>リンクが一つだけ」の場合ですと、正規表現
<a +href=('|\").*('|\") *>
でURLデータを正しく抽出できるところまで来ています。
ですが一つの行にある<a href>リンクが2つ以上あった場合は、最長一致のルールに従って、うまく抽出できません。
具体的に申し上げると、
ケース1:<a href="www.hoge.htm">ほげ</a>
<a href="www.hoge.htm">
が抽出できる。
ケース2:<a href="www.hoge.htm">ほげ</a><a href="www.hogehoge.htm">ほげほげ</a>
<a href="www.hoge.htm">ほげ</a><a href="www.hogehoge.htm">
が抽出される。(本当は2つを別々に取り出したい)
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- SEO googleサーチコンソールで、重複URLが多数発生、その修正方法について 2 2023/06/23 16:15
- その他(プログラミング・Web制作) pythonのWebスクレイピングでfind_allだとurlがNoneに 4 2022/04/17 18:21
- PHP PHP MySql ページング 2 2022/09/20 06:38
- PHP a href リンクタグでだけで 送信が できちゃっています。 1 2022/04/18 04:25
- HTML・CSS Dreamweaver のテンプレートでの相対パスの設定について 2 2023/06/13 17:28
- HTML・CSS HTMLについて教えて頂きたいです。. 4 2022/12/21 16:51
- JavaScript jqueryを使ったスムーススクロールのコードを書いたのですが、HTMLコード内にある、a butt 2 2022/04/14 10:59
- Excel(エクセル) Excelの関数でこんな処理ができますか 1 2023/02/08 13:46
- その他(データベース) Accessのクエリで1フィールドの抽出条件設定をNullでなく全角半角含む空白のみの文字列でない文 1 2023/04/24 15:20
- HTML・CSS CSSが上手く反映されないみたいです 2 2022/11/21 16:19
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
<a href="#" …>の意味を教えて...
-
HTMLソースからURLだけを抜き出...
-
本番環境とテスト環境のURL
-
相対パスと絶対パスの速度
-
リンクに飛ばない・・・
-
プルダウンメニューからリンク...
-
chromeでの擬似クラス:focus に...
-
同意を求めて、次のページに進...
-
URLでEXEを呼出した際の、引数...
-
bodyにidをつける理由は何ですか?
-
別ファイルのfunctionの読み込み方
-
複数のJavascriptを1つのscrip...
-
base64encodeでの文字化けについて
-
javascriptでalertの文字列をコ...
-
ウインドウの後ろに隠れている...
-
cssにjavascriptを入れる?呼び...
-
Vbscriptで自分自身のウィンド...
-
複数のページ(html)のvalueを...
-
文字を入れ替わり表示させたい...
-
document.getElementById
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
<a href="#" …>の意味を教えて...
-
相対パスと絶対パスの速度
-
pythonのWebスクレイピングでfi...
-
HTMLソースからURLだけを抜き出...
-
<META HTTP-EQUIV='refresh' CO...
-
フレームだけ閉じる方法ありま...
-
html メールリンクにて自動ファ...
-
<a href>での背景色について。
-
HTMLアプリでインラインフレー...
-
iPadのロングタップ(長押し)...
-
リンクに飛ばない・・・
-
プルダウンメニューからリンク...
-
ある一定時間操作していない場...
-
POSTで<a hrefを送る方法について
-
mailto + 変数名
-
個別にハイパーリンクの色を指...
-
chromeでの擬似クラス:focus に...
-
エクスプローラ風階層構造のhtml
-
特定リファラからのアクセスを拒否
-
時間によってリンク先を変える...
おすすめ情報