「お昼の放送」の思い出

htmlのソースからタグを取り除くのに
saxを使えばよいといわれたのですが、
これってXMLのためのものですよね?
htmlでもできるんですか?
たしかhtml用のクラス?パッケージ?
どちらかわすれましたが、あったような気がする
のですが、
お願いします。

A 回答 (2件)

XMLもHTMLもタグ付きテキストですからSAXもしくはDOMでparseすれば属性も要素も取得可能です。


w3cで定義されたタグなのか、独自やDTDで定義されたタグなのかの違いだけです。
パッケージはSUNのページにJAXPがありますのでダウンロードしてclasspathを通してください。
詳しくはJAXPのjavadocを参照してください。

注意としては解析するHTMLのタグは入れ子になっていないとか、ちゃんと閉じられていなければならなかったかと思います。XMLでは必ず閉じる物ですから。ちょっと記憶が定かでないのですが。

あと、やりようによってはXSLでタグを取ることも可能ですね。
    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2004/11/17 23:01

>たしかhtml用のクラス?パッケージ?


>どちらかわすれましたが、あったような気がする

ParserDelegator
    • good
    • 0
この回答へのお礼

ありがとうございます。

お礼日時:2004/11/17 23:01

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!