RubyのHTMLパーサーで複数のタグを抽出したい

Question

現在、Rubyを用いてあるWebページから特定のタグの要素を抽出してテキストデータに出力したいと思い、プログラムを書いているのですが、途中で行き詰ってしまいました。ちなみにHpricotやNokogiriといったHTMLパーサーを試してみました。パーサーを使うのは初めてです。例えば以下のようにHTML文書に抽出したい部分がDIVタグとPタグに囲まれていた場合、 ===================================== ・・・

抽出したい文字列１

抽出したい文字列２

抽出したい文字列３

抽出したい文字列４

抽出したい文字列５

抽出したい文字列６

・・・ ===================================== このHTMLからまずは抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列４抽出したい文字列５抽出したい文字列６といった出力が得たいのです。プログラムも書いてみました。 ===================================== #ドキュメント全体を取得（dataにはHTMLの文字列が入っている） html = Hpricot(data) #内容部分(contentクラスのdiv)を取得（CSSセレクタで記述） content = html/"div.content" ===================================== ここまでは良いのですが、そのあと、div要素を取り出すだけであれば headerクラスと、footerクラスを抽出しないように ===================================== (content/"div:not(.header):not(.footer)").each{ |line| puts line.inner_html } ===================================== とすることで、抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列６が得られますが、pタグをカンマでdivの前に追加して ===================================== (content/"p,div:not(.header):not(.footer)").each{ |line| puts line.inner_html } ===================================== のようにすると、抽出したい文字列４抽出したい文字列５抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列６のように出力されます。同様にdivの後にpを追加し ===================================== (content/"div:not(.header):not(.footer),p").each{ |line| puts line.inner_text } ===================================== のようにすると抽出したい文字列１抽出したい文字列２抽出したい文字列３抽出したい文字列６抽出したい文字列４抽出したい文字列５のようになってしまいます。つまり、複数のタグを指定すると、指定した順序で抽出されるようです。代わりに子供すべてを列挙するchildのようなものがあるかと、調べてみたのですが、どうやらそのような書き方はないようです。複数のタグを含む場合にはHTMLパーサーでは解析できないのでしょうか。パーサーは抽出時に順番を保証はしてくれないのでしょうか。あきらめて、正規表現で抽出しようと思いましたが、 =====================================

ごちゃごちゃ

抽出したい要素６

===================================== などDIVが入れ子となっている場合に、非常にややこしく感じたのでお手上げ状態です。どのように、解決できるでしょうか。よろしくお願いします。

notnot · Accepted Answer

CSSであまり複雑な指定をしたこと無いのですが、おそらくXPathのほうが細かい指定が出来ます。
Nokogiriでしか確認していませんが、おそらくHpricotでもXPath指定が出来ると思います。

content / "./*[@class!='header' and @class!='footer']"

./* が直下の任意のノードで、[ ] 内がその選択条件です。
あるいはまとめて、htmlから直接、

html / "//div[@class='content']/*[@class!='header' and @class!='footer']"

任意のノードでなく、div と p だけに限るなら、

content / "./*[((name()='p')or(name()='div')) and @class!='header' and @class!='footer']"

RubyのHTMLパーサーで複数のタグを抽出したい

CSSであまり複雑な指定をしたこと無いのですが、おそらくXPathのほうが細かい指定が出来ます。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング