先着400名様に2000ポイントキャンペーン実施中！

誕生日にもらった意外なもの

入れ子になっているHTMLタグも抜き出したい

締切済

質問者：naktak
質問日時：2007/09/14 17:42
回答数：2件

現在、/^(<([\w]+)[^>]*>)(.*?)(<\/\\2>)/という正規表現で
再帰的に処理させてHTML部分のみカットしています。
が、
<table border="1" cellpadding="2" cellspacing="0" align="right" style="margin-left:1em"><tr><td colspan="2" cellspacing="0" cellpadding="2"><table align="center" border="0"><tr><td colspan="2" align="center">aaa</td></tr></table></td></tr></table>

こういった同じタグの入れ子状態になっている事を想定していなかった為
正しく抜き出しが行えず問題が発生しています。
しかし、現状の処理でずっと動作させてきたので、出来るだけ処理を変更せず
上記HTMLにも対応させたいです。

何かいい正規表現か、同等の処理はありませんでしょうか？

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

最新から表示
回答順に表示

No.2

回答者： noname#39970
回答日時：2007/09/15 05:34

正規表現でなくDOMとして取り出す方法に書き換えたら？

あんまりやりたくないかもしれないけど。

・・・・・試しに入れ子でも抜き出せる正規表現考えたけどうまくいかなかった・・・

- 0
- 件

この回答へのお礼

お礼が遅くなってしまい申し訳ありません。

DOMを使えば、とは私も思いました。
が、今まで動作実績があるものがガラっと
処理が変わってしまう為、今からでは
間に合わず、DOM対応は除外していました。

そして結局諦めました＾＾；

お礼日時：2007/09/19 22:04

No.1

回答者： mizuno3
回答日時：2007/09/15 01:24

行いたい動作が良く解らないのですが、単純にstrip_tagsと同じような動きであれば以下のようなのはどうでしょうか？

$b = preg_replace('/<\w[^>]*?>|([^<]+)/', '\1', $str);

\wは少し手抜きです。

- 0
- 件

この回答へのお礼

お礼が遅くなってしまい申し訳ありません。

実はstrip_tagsと同じ動きではないのです・・・。
タグ毎にどこが開始でどこが終了なのか、という
のも一緒に保持させる必要があったので。

結局諦めました＾＾；

お礼日時：2007/09/19 22:02

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう！

質問する（無料）

関連するカテゴリからQ&Aを探す

ページトップ

おすすめ情報

質問する（無料）

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

おすすめ情報