![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?8acaa2e)
HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。
使用言語はperl,HTML::Parserを使用してプログラムを作成したいと考えています。
日本語の本文のテキスト抽出を行っているのですが、
うまく抽出できるものと文字化けするものがあります。
nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。
perlテキスト処理に詳しい方がいらっしゃいましたら、
教えてください。
よろしくお願いいたします。
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
これは意外と難しい、Perlプログラマを悩ませる難題。
ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。
参考になるサイトをあげておきます。これで該当するものを削除すればよいかと
【参考サイト】
Perlメモ
http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag
そして、
s/$tag_regex//gs;
返信が遅くなってしまい申し訳ありません。
回答と掲載していただいたサイトを参考にしまして
HTMLタグの除去ができました。
本当にありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
IO::Socketでacceptを実行する...
-
例外処理のフローチャートの記...
-
Perlソースコードをコンパイル...
-
ユーザー定義関数に#NAME?が返...
-
「デバイスは PRN を初期化でき...
-
エクセルVBAでシートモジュール...
-
【vba】フォームに書いてあ...
-
Excel VBAでリンク切れをチェッ...
-
VBAでoutlook365が起動しません。
-
ExcelVBA AddinでOnAction
-
LCD ディスプレイを Raspberry ...
-
モジュールとは何ですか
-
AIX6でファイルのタイムスタン...
-
教えて下さい。
-
Excel VBAで、ユーザーフォー...
-
ActivePerlへXML::LibXSLTを!
-
モジュールとクラスの違いって...
-
VBAで別モジュールへの変数の受...
-
CシェルプログラミングをCygwinで?
-
Pythonプログラミングでエラー
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
Wordで、分かち書きをするVBA ...
-
ランダムな単語を得るAPIってあ...
-
うるう年か平年かを判定するプ...
-
Perlで・・・。
-
HTML形式のメールからテキスト...
-
perlでメール配信 文字化けな...
-
オンマウスで解説が浮き出るよ...
-
connect タイムアウトのデフォルト
-
うるう年かどうかを計算するプ...
-
PerlはWEB系以外の開発にも使わ...
-
文章の分割
-
例外処理のフローチャートの記...
-
Excel VBAでリンク切れをチェッ...
-
ユーザー定義関数に#NAME?が返...
-
VBAで別モジュールへの変数の受...
-
VBでグローバル変数を宣言するには
-
エクセルVBAでシートモジュール...
-
'Range'メソッドは失敗しました
-
「デバイスは PRN を初期化でき...
-
グラフのX,Y座標を取得したい
おすすめ情報