この人頭いいなと思ったエピソード

Javaの正規表現でimgタグのaltとプレーンテキストのみを抜き出したいと思っています。

例えば、
<img src="image.jpg" alt="イメージ" />テキスト
<img src="image.jpg" alt="イメージ" class="imgclass" />テキスト
<img alt="イメージ" src="image.jpg" />テキスト
は、全て「イメージテキスト」になるようにしたいのです。
imgタグが入っていない場合や、プレーンテキストの後ろにimgタグがある場合、
プレーンテキストにimgタグがはさまれている場合、imgタグが複数ある場合など
汎用的に対応したいのですがうまくできず…

アドバイスいただけると助かります。

A 回答 (1件)

<[^<]*img[^>]*alt[^>=]*=[^>]*["']?([^>"']*)"'[^>]*>([^<]*)



確認してないけどこんな感じでどうかしら。

たぶん一番間違いないのは
DOM使うことだろうけど。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報