ちょうどn文字の連続にマッチする正規表現

解決済

質問者：wt_res
質問日時：2020/05/02 14:16
回答数：3件

ちょうどn文字の連続にマッチする正規表現を教えて下さい。
https://perldoc.jp/docs/perl/5.16.1/perlreref.pod
こちらにある正規表現の文法は全て使用可能です。

例えば、
abbcccddeeeeeff
という文字列に対して、丁度2文字であれば、「bb」「dd」「ff」のみ検索されるようなものです。

失敗例： (.)\1(?!\1)

検索の仕組み上、不可能でしょうか？
先頭から順に、
abbcccddeeeeeff
bbcccddeeeeeff
bcccddeeeeeff
cccddeeeeeff
ccddeeeeeff
cddeeeeeff
ddeeeeeff
deeeeeff
eeeeeff
eeeeff
eeeff
eeff
eff
ff
f
という風に検索されていくのだと思ってますが、この仕組みだと、頭の文字の前に同じ文字があるかどうかを認識するのは不可能ですからね…

検索の仕組み上、直前一文字は必須なので、(2文字の連続は)
(.)(?!\1)(.)\2(?!\2)|^(.)\3(?!\3)
これで妥協できそうです。

補足日時：2020/05/03 11:23
通報する

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.3ベストアンサー

回答者： Tacosan
回答日時：2020/05/03 22:59

例えば

aabbccdd
に対して「aa」「bb」「cc」「dd」の全部を取り出そうとすると, それではうまくいかないんじゃないかな. というか, その条件だと
素直な正規表現ではどうやってもダメ
のような気すらする.

ということもあってズルいことをしたんだけど, 「2文字」という条件なら split と grep を組合せた方が見通しはよかったかもしれない.

- 0
- 件

通報する

この回答へのお礼

諦めます。

通報する

お礼日時：2020/05/03 23:17

No.2

回答者： Tacosan
回答日時：2020/05/03 00:46

例えば

my $str = "abbcccddeeeeeff2;
my %doubles;
() = $str =~ /((.)\2++)(??{($doubles{$1}++ if length($1)==2)})/g;

ってやると key %doubles は "bb", "dd", "ff" になる... けどこの辺が限界かなぁって気はする.

- 0
- 件

通報する

この回答へのお礼

なるほど笑笑
それはちょっとズルいですね笑
しかし、ありがとうございました。

従来からの静的な正規表現で後方の参照が前方で出来ない限り無理なのでしょうね。。

通報する

お礼日時：2020/05/03 11:04

No.1

回答者： artoo
回答日時：2020/05/02 23:13

それで合ってると思います。

あとは、それを取り出す言語側の記述ですね。
Perlで、「すべて取り出す」という記述が分からなかったので、RubyとPerlで。

Ruby
text = "abbcccddeeeeeff"
result = text.scan(/((.)\2)(?!\2)/).map(&:first)

Python
result = [x[0] for x in re.findall(r"((.)\2)(?!\2)",text)]

いずれも、括弧があると「マッチした物全体」じゃなくて括弧内しか抽出できないので、欲しい部分をさらに括弧で囲みます。
["bb","b"]と取り出されるので先頭要素を取ります。

「マッチした物全体を文字列からすべて取り出す」という機能のある言語なら、(.)\1(?!\1) のままでOKです。