xPathで全てのhタグを取得したいのですが

解決済

質問者：valilian
質問日時：2014/02/11 02:38
回答数：1件

Python2.6とlxml.htmlにて、
例えばh2タグ内を全て取得したいのですが、上手くいきません。

<h2>タグが３つあるとして、
自分は、//h:h2や、//*[name()='h2']などと指定し、text()を行いましたが上手くいきませんでした。
最初の方は、未定義の名前空間プレフィックス、２つめは最初のh2タグの内容しか取れませんでした。

色々試したのですが、ちょっと方法が思い付きません。
アドバイスいただけないでしょうか？
宜しくお願い致します。

カテゴリをXMLとその他のプログラミングで迷いました。
もしこちらではないようでしたら移動いたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： wetti
回答日時：2014/02/11 20:40

よくわからんけど、こういうこと？

import lxml.html
root = lxml.html.fromstring(r'''<html>
<body>
<h2>hello world</h2>
<h2>foo <em>bar</em> baz</h2>
</body>
</html>''')
res = root.xpath('//h2')
print res[1].text # foo
print res[1].text_content() # foo bar baz
print res[1][0].text # bar
print res[1][0].tail # baz

名前空間うんぬんの件はよく意味がわからない。
HTMLを処理しようとしてるんじゃないの？

参考URL：http://lxml.de/lxmlhtml.html#parsing-html