indexと正規表現はどちらが早い？

解決済

質問者：Myc
質問日時：2011/09/16 08:01
回答数：4件

１行につき４０文字前後で（固定長ではない）、１ファイルにつき約１億行書かれたファイル（１ファイルにつき3-5GB程度のテキストファイル）が３０ファイルあります。ファイルは、すべてアルファベットで構成されていていますが、スペースは含まれておらず、各行の末端は改行(\n)で区切られています。これらのファイルからある特定の文字に完全にマッチする部分が含まれる行が各ファイルごとに何行あるのかを調べたいと思っています。検索する文字列の長さは10-20文字のものをいろいろと調べたいと思っています。

この作業をperlで行う場合、index関数を使って検索をするのと、正規表現を使って検索をするのでは、どちらが早いのでしょうか？もしくは、他に良い方法やmoduleがあるようでしたら教えてください。
よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： kuroizell
回答日時：2011/09/16 14:09

適当な事言わずにuse Benchmark qw(timethese cmpthese);。

a-zA-Zのランダム一行40字、100万行（40MB）を
indexとregexで検索文字列15字にマッチした行をカウント、
これをそれぞれ100回実行したところ、大差なし。
僅かに正規表現の方が早いですね。
ちなみにregqrは、$search_word = qr/hoge/を使ったものです。

index: 83 wallclock secs (78.55 usr + 4.34 sys = 82.89 CPU) @ 1.21/s (n=100)
regex: 75 wallclock secs (72.00 usr + 3.53 sys = 75.53 CPU) @ 1.32/s (n=100)
regqr: 74 wallclock secs (69.78 usr + 3.62 sys = 73.41 CPU) @ 1.36/s (n=100)
Rate index regex regqr
index 1.21/s -- -9% -11%
regex 1.32/s 10% -- -3%
regqr 1.36/s 13% 3% --

- 0
- 件

通報する

この回答へのお礼

回答ありがとうございます。
疑問が解決しました。
indexの方が早いとは予測していたのですが、思っていたほど違いはないんですね。これだったら、より柔軟に文字列を設定できる正規表現を使おうかと思います。
ありがとうございました。

通報する

お礼日時：2011/09/16 23:32

No.4

回答者： kuroizell
回答日時：2011/09/16 16:28

ちょっと気になったので、追記しておきます。

index関数との比較ということで、固定された検索ワードと理解しています。
従って、私の取ったベンチは、$str =~ /hoge/のようなリテラルでのパターンマッチ速度です。
正規表現というのは本来 /^[a-fA-F]{4}\d{2,10}.+$/のようなもので、
単純に$str =~ /h.{2}e/としただけでも、indexの方が早くなってきます。