秀丸の正規表現

解決済

質問者：mellow91
質問日時：2013/01/25 16:13
回答数：2件

秀丸の正規表現
http://pc.dearie.jp/hidemaru/replace/14.html

上記URLでメールの正規表現について解説があります。

[A-Za-z0-9\-\.\_]+@[A-Za-z0-9\-\_]+\.[A-Za-z0-9\-\.\_]+
この正規表現でメールの検索をおこなっています。この正規表現は理解出来ます。

.*([a-z0-9\-\.\_]+@[a-z0-9\-\_]+\.[a-z0-9\-\.\_]+)([^a-z0-9@\.\-\_]+).*
キャプチャを使って正規表現でメールアドレスをマッチしているのは理解できます。
なぜ置換で、「\1,」とやっても、メールアドレスのみを取得できないのでしょうか？

実際に秀丸エディタを使ってやってみましたが、メールアドレスのみ取得することができませんでした。
検索ではメールアドレスにマッチするのに、なんでキャプチャが正しく動かないのかがわかりません・・・

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： kmee
回答日時：2013/01/26 10:14

*とか+等は、複数の候補がある場合、できるだけ長く採用しようとします。

これを、「最長一致」とか「貪欲(greedy)なマッチ」とか言います。
http://www.shuiren.org/chuden/teach/hidemaru/sei …

そのサイトにある
> wa_ta_si01@becky_dearie_jp もしくは wa_ta_si02@becky_dearie_jp よ。
が
> 2@becky_dearie_jp,
になってしまうのは、最初の.*がなるべく長くなるようにマッチするためで
.* → wa_ta_si01@becky_dearie_jp もしくは wa_ta_si0
([a-z0-9\-\.\_]+@[a-z0-9\-\_]+\.[a-z0-9\-\.\_]+) → 2@becky_dearie_jp → \1
となるためです。

最近の秀丸では、「ものぐさ」なマッチが使えます。
http://hide.maruo.co.jp/software/hidemaru7/reg.h …
http://www.shuiren.org/chuden/teach/hidemaru/sei …

.*?([a-z0-9\-\.\_]+@[a-z0-9\-\_]+\.[a-z0-9\-\.\_]+)([^a-z0-9@\.\-\_]+).*
とすると
(先頭の).*? → (先頭の空白)
([a-z0-9\-\.\_]+@[a-z0-9\-\_]+\.[a-z0-9\-\.\_]+) → wa_ta_si01@becky_dearie_jp → \1
となり、メールアドレスを取り出すことができます。

しかし、今度は、その後につづく表現が
([^a-z0-9@\.\-\_]+) → もしくは
(末尾の).* → wa_ta_si02@becky_dearie_jp よ。
となってしまい、 wa_ta_si02@becky_dearie_jp を抽出することができなくなります。

いろいろと駆使すればできなくは無いでしょうが、とても複雑な表現になります。
それよりは、そのサイトの後半にあるように、処理を分けた方が簡単でしょう。

※ なお、そのサイトも例をそのままここに書くと、メールアドレスだと判定されてしまうので、変更しています。