
HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。
使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。
日本語の本文のテキスト抽出を行っているのですが、
うまく抽出できるものと文字化けするものがあります。
nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。
perlテキスト処理に詳しい方がいらっしゃいましたら、
教えてください。
よろしくお願いいたします。
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
これは意外と難しい、Perlプログラマを悩ませる難題。
ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。
参考になるサイトをあげておきます。これで該当するものを削除すればよいかと
【参考サイト】
Perlメモ
http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag
そして、
s/$tag_regex//gs;
返信が遅くなってしまい申し訳ありません。
回答と掲載していただいたサイトを参考にしまして
HTMLタグの除去ができました。
本当にありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
ランダムな単語を得るAPIってあ...
-
【Excel2016】結合されたセルを...
-
「デバイスは PRN を初期化でき...
-
Perlのモジュールについて
-
グラフのX,Y座標を取得したい
-
例外処理のフローチャートの記...
-
Excel VBAでリンク切れをチェッ...
-
EXECEL VBA コマンドボタンか...
-
VBScriptのデバッグ方法につい...
-
tex についての質問です このコ...
-
fetchrow_arrayとfetchrow_hash...
-
モジュールの最大数はいくつな...
-
VBのフォームモジュールと標準...
-
シャープ製品JH-WB1821 と BCG...
-
forkで作れる子プロセス数が限...
-
教えて下さい。
-
ユーザー定義関数に#NAME?が返...
-
windowsXP上で動作する最新版の...
-
クリアーとデリート
-
ExcelVBA AddinでOnAction
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
ランダムな単語を得るAPIってあ...
-
Wordで、分かち書きをするVBA ...
-
perlでxmllint相当のスクリプト...
-
perl HTML::TreeBuilder返り値
-
例外処理のフローチャートの記...
-
「デバイスは PRN を初期化でき...
-
Excel VBAでリンク切れをチェッ...
-
Excel VBA 定義されたプロージ...
-
Application.OnKey:項目入力中...
-
Excel VBAで、ユーザーフォーム...
-
モジュールの最大数はいくつな...
-
グラフのX,Y座標を取得したい
-
VBA This Workbookモジュール...
-
ユーザー定義関数に#NAME?が返...
-
LCD ディスプレイを Raspberry ...
-
VBSがコンパイルエラーになりま...
-
Excel VBAで、ユーザーフォー...
-
VBAで旧字体を異字体に一括で変...
-
モジュールとクラスの違いって...
-
Sub Workbook_Open()でユーザー...
おすすめ情報