アプリでもっと教えて！goo

プロが教える店舗＆オフィスのセキュリティ対策術

HTML形式のメールからテキストのみを抽出したい

締切済

質問者：pony222
質問日時：2009/11/27 16:59
回答数：1件

HTML形式の本文からHTMLのタグを除去して、プレーンテキストのみを抽出するプログラムを作成していますが、うまく処理ができなくて困っています。

使用言語はperl，HTML::Parserを使用してプログラムを作成したいと考えています。
日本語の本文のテキスト抽出を行っているのですが、
うまく抽出できるものと文字化けするものがあります。
nkfモジュールを使用すれば解決できそうだと考え、試行錯誤しておりますが、うまく処理できていません。

perlテキスト処理に詳しい方がいらっしゃいましたら、
教えてください。
よろしくお願いいたします。

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

最新から表示
回答順に表示

No.1

回答者： ORUKA1951
回答日時：2009/11/27 17:49

これは意外と難しい、Perlプログラマを悩ませる難題。

ただ、メールソフトによって作成されるものなので、手書きのHTMLよりは楽でしょう。
　参考になるサイトをあげておきます。これで該当するものを削除すればよいかと
【参考サイト】
Perlメモ
　 http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag

そして、
s/$tag_regex//gs;

- 0
- 件

この回答へのお礼

返信が遅くなってしまい申し訳ありません。

回答と掲載していただいたサイトを参考にしまして
HTMLタグの除去ができました。

本当にありがとうございました。

お礼日時：2009/12/04 14:42

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！

質問する（無料）

似たような質問が見つかりました

その他（データベース） Accessのクエリで1フィールドの抽出条件設定をNullでなく全角半角含む空白のみの文字列でない文 1 2023/04/24 15:20
Excel（エクセル） Indirect関数について、Formulatextで抽出した数式を参照したい。 1 2022/12/15 11:16
その他（プログラミング・Web制作） python pandas 行ごとに列名（列番号）を指定して抽出したい 1 2023/05/26 13:47
システム CSVファイルのマッピング処理の省力化 1 2022/11/24 00:01
HTML・CSS リンクバナーのHTMLタグ。画像を変えたり、設置位置を変えるとバナー貼付け側はどう見える？ 2 2023/02/01 12:01
生物学【生化学】【医学】【薬学】「ランゲルハンス島からインスリンを抽出する方法」ご覧くださりありがとうご 1 2022/09/09 15:59
JavaScript javascriptのちょっとした動作不良（原因は突き止めたのですが） 1 2023/06/15 19:58
Perl perlのプログラミング部分入れ替えの方法 1 2022/10/11 22:26
国家公務員・地方公務員公務員試験の数的処理で苦戦しています。 1 2023/01/30 08:56
Visual Basic（VBA） VBAにてメール作成した際、一部指定箇所のみ赤文字にしたいです。下記の内容ですと作成されたメール本 1 2022/04/27 13:31

関連するカテゴリからQ&Aを探す

ページトップ

おすすめ情報

質問する（無料）

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

おすすめ情報