正規表現について

Question

Htmlのタグの属性を正規表現を用いて取得しようとしています。

たとえば
<font size="2" face="ＭＳ 明朝">

の場合、
"2"と
"ＭＳ 明朝"
を取得したいのですが、

以下のように定義を "="から始まり、空白か">"迄と定義した所、
pattern = Pattern.compile("=(.*?)[ >]");
としてマッチングした所、
"2"と
"ＭＳ
がとれてしまいました。

"(ダブルクォーテーションの中の[ >]（空白等）は判定しないような
定義に出来るのでしょうか。

宜しくお願いします。

sakusaker7 · Accepted Answer

あー説明文を一生懸命かいていたら自分で解決していましたか(^^;

> (?<==)
> は前方一致ですね。つまり=から始まるもの。
> 但し、=自体は検索結果に含まれないんですね。

意味はあっていますが、通常「戻り読み」
(look-behind)等と呼ばれます。
Pattern (Java Platform SE 6)
http://java.sun.com/javase/ja/6/docs/ja/api/java/util/regex/Pattern.html
だと「後読み」になってますね。

> (?=
> は後方一致で
これも、通常は「先読み」(look-ahead)と呼ばれます。

> (?: はグループ化で

そうです。
単なる ( と )でもグループ化はできますが、
それとの違いは後方参照(back reference)
ができるかどうかです。
(?: )によるグループは後方参照できません。
#その代わりちょっと高速

といったところです。

*? と * の違いは良いですよね?

sakusaker7 · Answer

一番問題がなさそうな条件を考えてみました。何か問題点 or 疑問点があれば補足に書いてください。この後数時間ばかしネットにアクセスできないのでよろしくおねがいします。 import java.lang.*; import java.util.regex.*; public class Moge { static public void main(String[] args) { //String target = ""; String target = ""; Pattern p = Pattern.compile("(?<==).*?(?=(?: +[^ =>]+=)|>)"); Matcher m = p.matcher(target); while (m.find()) { System.out.println("found: " + m.group(0)); } } } found: 2 found: ＭＳ明朝 found: 84 found: 2 found: top

sakusaker7 · Answer

>今回WORDから自動生成されたHtmlを使用しているのですが、属性に'"'が付いてない場合があるようです。

なるほど。
ただ XHTMLでなくても

> 属性値に英数字（a-z, A-Z, 0-9）、ハイフン（-）、
> ピリオド（.）、アンダースコア（_）、コロン（:）
> 以外の文字を含むときは属性値をダブルクォーテーション（"）
> もしくはクォーテーション（'）で囲まなくてはなりません。
http://www.tohoho-web.com/html/memo/attr.htm

ということなので、

MS 明朝 というのはあまりにもナニですがまあ我慢するとして、

“MS 明朝”のように、間に入る空白はひとつだけ
とか限定条件を置いて良いですか?

=を含む文字列を属性の値としてクォートなしで
使う。なんて状況はちと考えたくないです。

sakusaker7 · Answer

> 以下のように定義を "="から始まり、空白か">"迄と定義した所、なぜこのような定義に? =の後の、'"'で囲まれた部分というのでは都合が悪いですか? import java.lang.*; import java.util.regex.*; public class Moge { static public void main(String[] args) { String target = ""; Pattern p = Pattern.compile("(?<==)\"[^\"]+\""); Matcher m = p.matcher(target); while (m.find()) { System.out.println("found: " + m.group(0)); } } } 実行結果: found: "2" found: "ＭＳ明朝" > "(ダブルクォーテーションの中の[ >]（空白等）は判定しないような > 定義に出来るのでしょうか。できなかありませんが、一目でわかる記述にはならないのであまりお勧めはできません。 #わかりやすい記述にするとパフォーマンスが悪いものになるし

正規表現について

あー説明文を一生懸命かいていたら自分で解決していましたか(^^;

この回答への補足

一番問題がなさそうな条件を考えてみました。

この回答への補足

>今回WORDから自動生成されたHtmlを使用しているのですが、属性に'"'が付いてない場合があるようです。

> 以下のように定義を "="から始まり、空白か">"迄と定義した所、

この回答への補足

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング