正規表現で「より前」と「より後」

Question

正規表現を使用し、複数のHTMLファイルのテーブルを一括で抜き出そうとしています。ファイルは　本文残す部分

本文　となっています。本文は各自異なる為、普通の置換え機能で、一気に削除できません。調べてみた所、正規表現を使い、$`や$'　を使うと、特定の文字列の前や後を選択することができるようなのですが、具体的にどう使うかがよく分からず、試行錯誤してみましたが、失敗してしまいました。正規表現で、「より前」や「より後」を選択し、削除する方法がございましたら、教えて下さい。宜しくお願い致します。

fujillin · Accepted Answer

正規表現は、不得手なのですが… まず最初に、使用言語によって、正規表現の記述方法は違いますので、使用する文字が変わってきますし、オプションなども違うでしょう。言語による違いは　http://www.kt.rim.or.jp/~kbk/regex/regex.html なので、ここから後は雰囲気のみで読んでください。 ------------------------------------------------------ 最初のが出てくるまで、最後の

以降などは　/^(.*?)/　、　/<\/table>(.*?)$/ などで対応できるかと思います。

タグに属性が設定されている可能性を考慮するなら、「*************

　　　　************** *************

とか、　　　　************** *************

*************

　　　　************** みたいな場合、あるいはこれらの複合形なども考えるとテーブル以外を消すよりも、テーブルを抜き出した方が良いかも。　/(.*?<\/table>)/ この場合でも入れ子のテーブルをどう処理するのかは、考えねばなりません。（先に、内側を記号などに置き換えてから外側を検索するとか、あるいは一気に全部マッチさせるとか…）さらには、コメント行やスクリプトなどの中に、これらのタグが出てくる可能性まで考えると、なかなか一筋縄ではいかなくなりますね。おまけ　HTMLタグの正規表現及びコメントタグの正規表現　http://www.din.or.jp/~ohzaki/perl.htm#HTML_Tag

kawacchi · Answer

こんばんは。 DreamweaverCS3で試してみましたが、 ([\d\D]*)|(

[\d\D]*) で置換したところ、tableタグの前後を削除できました。自分もまだ正規表現を勉強し始めたばかりなので、もっとスマートなやり方があるかもしれませんが、置換はできます、ということでご報告します。 tableタグの前の部分はすでに削除されたようですので心配は不要かと思いますが、 #2さんのおっしゃるように、tableタグに属性がある場合はを

fujillin · Answer

#2です。

＞テーブル以降の削除には、まだ失敗してしまいす。

え～～っと。
　・・・・・・
すんません。
使用言語にもよりますが、メタキャラの「.」には改行が含まれない可能性もあります。
なので、\s*を付け加えないとうまくないかも…

ぅんっ？
・・・・ってーことは、前半のやつも　[.\s]*? じゃないとダメっつーことかな？

むぐぅ・・このあたりがまさに「不得手」な理由ですぅ　^^;ゞ

fuuten_no_neko · Answer

私も正規表現は苦手なのですが、必要に迫られ同じような処理をするアプリケーションを作成しています。

私のアプリケーションは「ＨＴＭＬ文の中で、ユーザーが注目する箇所を監視し、変更時に通知する」ものです。要するにＨＴＭＬ文の特定箇所を切り抜く必要があるわけです。
監視するＵＲＬは、例えば「教えて！goo」で
http://oshiete1.goo.ne.jp/c260.html
を見て、最新の質問をピックアップします。
具体的方法は、正規表現で「前置マーク」「ターゲット」「後置マーク」を指定し、最初は「前置マーク」＋「ターゲット」＋「後置マーク」に該当する部分を切り取り、さらに「前置マーク」と「後置マーク」に該当する部分を削除します。
正規表現は
「前置マーク」：qa[0-9]+\.html">
「ターゲット」：.*
「後置マーク」：</a>
です。今テストしたところ「http GETに混入されるこのデータは何でしょうか」が抽出されました。
もちろん対象によりこの正規表現は変更する必要があります。多少参考にならないでしょうか？

Tacosan · Answer

私も「table 要素を残してそれ以外を捨てる」という方針の方が早いような気がします＞#2.
まあ, 「ネストしている」場合には本来正規表現では表すことができないんですけどね.

Tacosan · Answer

まず, あなたが使っている言語は書いた方がいいと思う. 次に, 試行錯誤の内容, つまり
・どのようなデータに対して
・どのような結果を期待して
・どのように書いたところ
・どのようになってしまったのか
は極力書くべきです.

正規表現で「より前」と「より後」

正規表現は、不得手なのですが…

こんばんは。

#2です。

私も正規表現は苦手なのですが、必要に迫られ同じような処理をするアプリケーションを作成しています。

私も「table 要素を残してそれ以外を捨てる」という方針の方が早いような気がします＞#2.

まず, あなたが使っている言語は書いた方がいいと思う. 次に, 試行錯誤の内容, つまり

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング