プロが教える店舗&オフィスのセキュリティ対策術

HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。

使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。
日本語の本文のテキスト抽出を行っているのですが、
うまく抽出できるものと文字化けするものがあります。
nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。

perlテキスト処理に詳しい方がいらっしゃいましたら、
教えてください。
よろしくお願いいたします。

A 回答 (1件)

これは意外と難しい、Perlプログラマを悩ませる難題。


ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。
 参考になるサイトをあげておきます。これで該当するものを削除すればよいかと
【参考サイト】
Perlメモ
  http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag

そして、
s/$tag_regex//gs;
    • good
    • 0
この回答へのお礼

返信が遅くなってしまい申し訳ありません。

回答と掲載していただいたサイトを参考にしまして
HTMLタグの除去ができました。

本当にありがとうございました。

お礼日時:2009/12/04 14:42

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!