
Python2.6とlxml.htmlにて、
例えばh2タグ内を全て取得したいのですが、上手くいきません。
<h2>タグが3つあるとして、
自分は、//h:h2や、//*[name()='h2']などと指定し、text()を行いましたが上手くいきませんでした。
最初の方は、未定義の名前空間プレフィックス、2つめは最初のh2タグの内容しか取れませんでした。
色々試したのですが、ちょっと方法が思い付きません。
アドバイスいただけないでしょうか?
宜しくお願い致します。
カテゴリをXMLとその他のプログラミングで迷いました。
もしこちらではないようでしたら移動いたします。

No.1ベストアンサー
- 回答日時:
よくわからんけど、こういうこと?
import lxml.html
root = lxml.html.fromstring(r'''<html>
<body>
<h2>hello world</h2>
<h2>foo <em>bar</em> baz</h2>
</body>
</html>''')
res = root.xpath('//h2')
print res[1].text # foo
print res[1].text_content() # foo bar baz
print res[1][0].text # bar
print res[1][0].tail # baz
名前空間うんぬんの件はよく意味がわからない。
HTMLを処理しようとしてるんじゃないの?
参考URL:http://lxml.de/lxmlhtml.html#parsing-html
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
文字列や画像のurlをhtmlに代入...
-
ASP.NETでツリービューを作成し...
-
CPUの考え方を教えてください ...
-
XML、XSLTの適応エラー(IEから...
-
最長経路探索
-
4バイトを10進数に変換する方法
-
IEが表示できないXML
-
東芝のDynabookなのですがアン...
-
ExcelVBAで書き出した文字が化ける
-
Excel-VBAでXMLの複数ノードの...
-
XMLを出力する時のエラー原因
-
昔Winnyってありましたけど、あ...
-
C#でTreeViewのCheckBoxのサイ...
-
XMLをXSLを使いHTMLに変換した...
-
head要素
-
XMLのHTMLへの変換 (初心者)
-
このエラー、何とかなりません...
-
Webページに関するさまざまな情...
-
XPathで途中に名前空間が設定さ...
-
VB6.0 特殊文字コードの変換
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
終了タグが認識されない?
-
html→xmlの変換
-
XMLとXHTMLの違いって??
-
XMLで特殊文字を扱うにはどうし...
-
<intervalTime>タグ?
-
xPathで全てのhタグを取得した...
-
サイトマップのトップページア...
-
次のxhtml文
-
XMLとHTML
-
XSL-FOをつかってPDF出力
-
XML
-
CPUの考え方を教えてください ...
-
XMLで要素が記述された順番に意...
-
バッチファイルでテキストファ...
-
ルート要素ノードが2個ある場合?
-
東芝のDynabookなのですがアン...
-
xmlファイルが上手にHTMLに変換...
-
SNMP リンクダウンとノードダ...
-
VBSでxmlの値を書き換えたい
-
昔Winnyってありましたけど、あ...
おすすめ情報