こんばんわ~ときどきこちら様でお世話になってます
タグ(Java ScriptやHTML中のCSS等きわめて複雑なものも含む)を完全に削除してウェブサイトの文字だけを抜き出したいんですけど自分にはハードルが高すぎたみたいです^^;
http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag
いろいろ調べているうちにこちらのサイト様を発見し、
$none_tag =~ s/$tag_regex//;
とやってみましたがなぜかタグが残ってしまいます。
とあるサイトの【文字】だけを抜き出せれば良いのでタイトルに正規表現と記載しましたがその他の方法でも構いませんのでよろしくお願いしますm(_ _)m
No.3ベストアンサー
- 回答日時:
この回答への補足
ご回答ありがとうございます
やりたいことは同じなんですけど後でソースコードをみたときに
どんな処理をしてるかわかりやすそうなのですみませんが正規表現で問題を解決したいです
No.4
- 回答日時:
> その他の方法でも構いませんので・・・
http://www.vector.co.jp/soft/win95/net/se065646. …
など如何でしょうか。
参考URL:http://www.vector.co.jp/soft/win95/net/se065646. …
この回答への補足
すみませんが方法は正規表現のみでお願いします
http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag
のようにHTMLの正規表現を変数に代入して
$none_tag =~ s/$tag_regex//ig;
のようにしたいです
また↑のページではなんで複雑なタグを削除できないんでしょうか?
ページに複雑なJavaScriptがあったりするとうまく削除できなくてJavaScriptの一部が残ってしまいます
わがままばかり言ってしまいましたが再度よろしくお願いします
No.2
- 回答日時:
こんなんどうでしょう。
use Win32::OLE qw(EVENTS);
my $URL = "http://www.yahoo.co.jp";
my $IE = Win32::OLE->new("InternetExplorer.Application")
|| die "Could not start Internet Explorer.Application\n";
Win32::OLE->WithEvents($IE,\&Event,"DWebBrowserEvents2");
$IE->{visible} = 0;
$IE->Navigate($URL);
Win32::OLE->MessageLoop();
sub Event {
my ($Obj,$Event,@Args) = @_;
if ($Event eq "DocumentComplete") {
$IEObject = shift @Args;
my $innerText = $IEObject->Document->Body->InnerText;
print $innerText;
Win32::OLE->QuitMessageLoop();
}
}
No.1
- 回答日時:
gオプション付けましょう。
$none_tag =~ s/$tag_regex//g;
gオプションは「マッチするもの全てを見つける」ためのオプションです。
ということは、これがないと1回でも見つかったらそれで終わりということになります。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- HTML・CSS 【CSS】特定のリンクを含むaタグを指定できるかどうか? 3 2022/10/15 02:45
- Access(アクセス) AccessVBAで任意の複数リンクテーブルをAccessVBAを動かす際に削除したいと考えておりま 1 2022/11/17 15:45
- オープンソース csvデータのダブルクォーテーションで囲まれた文字内にあるカンマを削除したい 3 2022/09/02 15:17
- WordPress(ワードプレス) ワードプレスで、投稿一覧ページにタグを表示する方法 投稿につけたタグを、記事一覧ページにもカテゴリと 1 2023/05/10 21:41
- その他(プログラミング・Web制作) ワードプレスのプラグインであるAddQuicktagを使いたいが… 3 2022/04/18 15:03
- Word(ワード) wordの修正履歴について 3 2023/01/05 23:50
- HTML・CSS HTMLタグのあるCSVファイルを利用する方法 4 2023/03/19 14:41
- JavaScript javascriptのちょっとした動作不良(原因は突き止めたのですが) 1 2023/06/15 19:58
- PHP コメント機能に返信欄を矢印で追加したい 1 2022/05/09 21:17
- HTML・CSS VS.NETのコードを色合いも含めてHtmlに貼り付けたい。 1 2023/02/02 14:15
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
正規表現 .+? について
-
正規表現。行頭が○○以外にマッ...
-
CSVファイルの中で、「 , 」カ...
-
英数字のみ全角から半角に変換
-
「何とかで始まり、何とかで終...
-
各項目がダブルクォーテーショ...
-
csvデータのダブルクォーテーシ...
-
正規表現で、特定の文字列を含...
-
エクセルで数値を全角文字(カ...
-
EXCELからCSVにすると余計なカ...
-
VBA 置換文字がみつからない時
-
WORDで改ページすると時々グレ...
-
マクロを使ってフォルダー内に...
-
VBAの文字列の中に”(全角のダブ...
-
漢字からカタカナ変換マクロ
-
何故、日本は未だに数字を3桁...
-
Excel VBAでPDFファイルをMicro...
-
csvデータ ダブルクォーテ...
-
文字コードの%E3%80%とは何です...
-
Accessで日付や数値を全角で表...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
正規表現
-
正規表現でパスワードのチェック
-
正規表現で「円(価格)」文字列...
-
コマンドプロンプトでのsedの使...
-
sedの正規表現でグループ化する...
-
シェルスクリプト [[ $number =...
-
正規表現-数字
-
正規表現で数字をメタ文字に置...
-
正規表現 .+? について
-
この正規表現を教えて!
-
【正規表現】コメントアウトさ...
-
正規表現。行頭が○○以外にマッ...
-
Perlで別ファイルから文字列の抽出
-
正規表現について VB6
-
メールアドレスかどうかの
-
配列中の検索文字全が含まれる...
-
置換演算子についての疑問
-
配列内の要素をパターンマッチする
-
アスタリスクを検索できません
-
perlで記号除去を行いたいので...
おすすめ情報