プロが教えるわが家の防犯対策術!

VBAでMSHTML.HTMLDocumentを使用してWEB上から指定したタグ内のテキストを取得しようとしているのですが、取得したいデータがタグが複数に分かれています。

divの特定クラス内だけなど取得したいのですが、データ1は<h1>データ2は<td>や<p>など、getElementsByTagName(tag)だと、一つしかタグを指定きず、個別に取得するとデータ1とデータ2の関連がバラバラになってしまう為、複数タグを指定して取得できる方法を探しています。

イメージとしてはgetElementsByTagName(tag).Lengthが10の時にh1のタグを発見してそこからh1のinnerTextとtdタグ2つ分のinnerText取得して、またh1タグを発見するまでループして取得するような形に出来ればと思っています。

自作する以外ないのでしょうか?

A 回答 (2件)

>getElementsByTagName(tag)だと、一つしかタグを指定きず



getElementsByTagName('*')とか?
    • good
    • 0
この回答へのお礼

回答ありがとうございます。
昨日、getElementsByTagName('*')が出来ると言う情報を見て、試してみましたが、あまりに重かったので断念しました。2つや3つぐらい指定できると良いなぁと思っていたら、Selectors APIと言うもので、document.querySelectorAll('span, strong');とすれば取れる事が分かりました。
ただ、仕様が分からずです・・・。

VBAでのサンプルがあれば助かると思いつつ調べ中です。

お礼日時:2011/11/10 22:15

そうだねぇ 親tagを getElementsByTagName で持ってきて解析 が最も速いだろうね。


ただ、最初の1回をxpath指定をして取り出す方法があるからそれを使うのも有りかな。

速度的には親を持ってきて解析が速いと思うけど・・・

xpathのはなんてメソドだかはちょっと忘れちゃった。調べる時間が無いので参考ってことで。

この回答への補足

回答ありがとうございます。私の説明不足でした、すいません。
(その他htmlが続く)
<h1>エイチ1</h1>
<p>ピー1</p>
<p>ピー2</p>
(その他htmlが続く)
<h1>エイチ2</h1>
<p>ピー3</p>
<p>ピー4</p>
<p>ピー5</p>
(その他htmlが続く)
エイチ1~ピー1までと、エイチ2~ピー5までを取得したいと思っています。

親tagとなるdivなどを発見する度に・・・と言う処理なら
objDiv = doc.getElementsByTagName("div")
objDiv.getElementsByTagName("p").item(i).innerText
と言う感じで取れました。

補足日時:2011/11/09 23:01
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!