とっておきの手土産を教えて

HTMLソースファイルから、タグを完全に取り除く手法やモジュールを教えてください。
イメージとしましては、インターネットブラウザ上のHTMLページに対し
<全選択→コピー→テキストファイルに貼り付ける>
といった作業に類似したことをしたいです。

s/<.*?>//; を用いた削除では、本質問3行目のような表現も削除してしまい、
またブラウザを用いた手動の方法では、大量のファイルを処理しきれず困っています。

どなたかよろしくお願いいたします。

A 回答 (4件)

HTML::FormatText モジュール

    • good
    • 0
この回答へのお礼

ありがとうございます!
だめだったら、手作業でやろうと思っていたので大変助かりました。

お礼日時:2006/10/28 16:50

#3です


<>の中身が日本語がだと無視されずに表示されるようですね。失礼しました。
    • good
    • 0

HTMLファイル中に


<この部分は削除しないで!!>
と、書いてもテキストとして表示される事はない(ブラウザは未知の要素として無視する)のだからタグとして削除されてもかまわないのでは?
    • good
    • 0
    • good
    • 0
この回答へのお礼

早速お返事ありがとうございます。

紹介していただいたwebページを参照してみました。
紹介していただいたソースファイルには、下記のような記述がありました。
-- str = new RegExp("<[^>]*?>","gmi"); // HTMLタグ削除 --
しかし、この正規表現だとやはり
<この部分は削除しないで!!>
といった表現もタグと判断して削除してしまうように感じます。実際はどうなんでしょうか・・・・・・

お礼日時:2006/10/28 15:50

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報