m//gとm//gcの違い

Question

m//gとm//gcにはどんな違いがあるのでしょうか。

いくつか解説を見たのですが、どれも「m//gではマッチに失敗すると通常は文字列の検索位置が文字列の先頭にリセットされるが、cをつける (m//gc) と、これを防ぐことができる」のような感じでさらっと説明されていて、イマイチ理解できません。スクリプトを適当に作成して試してみたのですが、cをつけてもつけなくても結果は変わらないような気がします。これは、つまり、cがあるときと無いときの違いは、効率の違いとして現れるだけで一般的にはcをつけておけばいいと考えていいのでしょうか。
http://perldoc.jp/docs/perl/5.6.1/perlop.pod#item_m_PATTERN_cgimosx

以下のスクリプトはindex関数的に配列@strの各要素文字列に含まれる検索文字列$findwordの位置を表示させるものですが、やはりcをつけてもつけなくても結果は変わりませんでした。

my @str = ('pattern match', 'at random', 'exponentiation operator');
my $findword = 'at';
my $len = length $findword;
print "search '$findword'

";
foreach my $str (@str) {
    my $count;
    print '0123456789' x 3, "
";
    print "$str
";
    {
      if ($str =~ /$findword/ogc) { printf("match%d: %d
", ++$count, pos($str)-$len) }
      else { print "
"; last }
      redo;
    }
}

# /oはパターン内の不変変数を一度コンパイルすれば十分というものです

twinkleluz · Accepted Answer

gオプションにはパターンにマッチした部分を対象文字列から順次抜き出す機能があります。

@ary = $str =~ m/PATTERN/g;

とすると、$strからPATTERNにマッチする部分を全部抜き出し、配列に入れることができます。また、

$scl = $str =~ m/PATTERN/g;
とすると、マッチした文字列を一つずつ抜き出します。
$strがPATTERNにマッチすると1を返し、マッチした部分の次のインデックスをpos($str)関数で取得できます。
再度同じ文字列をm//gでマッチングするとき、pos($str)の位置から検索されます。
これ以上マッチする文字列が見つからない場合、pos($str)は先頭位置にリセットされます。
が、m//gcでは先頭位置にリセットされずに、一番最後にマッチしたインデックスがそのまま残ります。

以下のスクリプトを実行すると挙動が理解できると思います。

$s = 'hat hit hut het hot';

print "case m//g
";
#マッチできなくなるまでループさせる
while(my $r = $s =~ m/(h.t)/g)
{
print pos($s)."
";
}
#マッチできなくなったあとのposを取得
print 'lastpos' .pos($s)."
";

print "case m//gc
";
while(my $r = $s =~ m/(h.t)/gc)
{
print pos($s)."
";
}
print 'lastpos' .pos($s) ."
";


cオプションをつけただけで効率が変わることはないと思います。
kapuraさん添付のソースでは、各文字列に対し一度しかマッチングさせていないので、cはつけてもつけなくてもいいでしょう。

BLUEPIXY · Answer

#以下を試してみたらわかりやすいかも
$text="bbb ddd 111 222 333";
print "option:g
";
$text=~ /[a-z]+/g; print pos($text).":$&
";
$text=~ /[a-z]+/g; print pos($text).":$&
";
$text=~ /[a-z]+/g; print pos($text).":$&
";#リセットされる
$text=~ /[a-z]+/g; print pos($text).":$&
";
$text=~ /[a-z]+/g; print pos($text).":$&
";
pos($text)=0; #reset
print "option:gc
";
$text=~ /[a-z]+/gc; print pos($text).":$&
";
$text=~ /[a-z]+/gc; print pos($text).":$&
";
$text=~ /[a-z]+/gc; print pos($text).":$&
";
$text=~ /[a-z]+/gc; print pos($text).":$&
";
$text=~ /[a-z]+/gc; print pos($text).":$&
";

m//gとm//gcの違い

#以下を試してみたらわかりやすいかも

gオプションにはパターンにマッチした部分を対象文字列から順次抜き出す機能があります。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング