perl5でunixの"wc"や"grep -c"みたいに1つのファイルの中からある文字列の個数を
カウントするスクリプトを作ろうとしています。

ファイルは256文字×10万行くらいのテキストで、
検索する文字列は15文字前後×40個(例えば「apple-000001」「lemon_orange」など)です。

どのようなスクリプトを組んだら効率よく各文字列をカウントできるのでしょうか?
それよりwcやgrep -cを40回行った方が早いのでしょうか?

A 回答 (3件)

最終的な速度については分かりませんが,Perl で効率良く実現しようというのであれば,配列(下の例では @pattern)に照合する文字列を入れておいて,ファイルから一行読むごとに,



foreach $pattern (@pattern) {
$count{$pattern} += /$pattern/g; #行の内容は $_ に入っていると仮定
}

とかしてやればよいのではないでしょうか。
一行にパターンが必ず一回しか現れないのであれば,2行目は,

$count{$pattern}++ if (/$pattern/);

とかすることも可能でしょう。

上記コードでは,パターン照合回数は grep を使ったときと同じですが,ファイルI/Oの回数は 1/パターン数 で済みます。が,パターン照合の速度そのものは grep のほうが速いでしょうから,最終的にどちらが速いかはやってみないと分かりません。

ちなみに,Perl のパターンマッチング処理は,一般に sed と同等或いはより高速だと言われているので,sed を使う意味はあまりないと思います。

この回答への補足

1000行25パターンのテストデータでやってみたところ
grep(25回)はperlの1.5倍処理時間がかかりました。
ということでperlで処理したいと思います。
ありがとうございました。

補足日時:2002/01/18 18:35
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
まさにperlやりたかった内容です!
grepと比較検討してみたいと思います。
#見た目的にはperl処理かな ^ ^;)

お礼日時:2002/01/18 09:02

> また、systemコマンドでgrepを呼んだとすると、その結果をperlで処理するのはどうするのでしょうか?



パイプを使います。perl は普段使わないので、怪しいのですが、こんな感じになるはず。

open IN, "grep なんとかかんとか |" or die "error\n";
while ( <IN> ) {
  何か $_ を使った処理。例えば…
  print;
}
close IN;


> ファイルは1つです。その中で検索する文字列が40個あります。

ああ、そういうことなのね。ちょっと迷いますね。

sed で、一行一単語にばらしつつ、検索する文字列を含む行だけを抽出しておいて、その出力を perl で
処理してカウントして行くのが一番軽いかな?
    • good
    • 0
この回答へのお礼

さらなるご回答ありがとうございます。
パイプの使い方大変参考になりました。
sedのほうは、atonさんが回答していただいた処理と比較検討してみたいと思います。

お礼日時:2002/01/18 08:57

直接の回答にはならないかもしれません。



> それよりwcやgrep -cを40回行った方が早いのでしょうか?

wc や grep は、複数のファイルを一度に処理できますから、起動は一回だけで
済みます。

# 特定の単語を探すのであれば、wc には無理ですね。

perl もかなり早いんですが、(環境にもよりますが)grep なんかは、それなりに
速さを要求されてきて育ってきたプログラムですから、下手なスクリプトを書くよりは
ずーっと早いです。

もし探す文字が、固定で構わない(つまり、正規表現を使わない)のであれば、
fgrep を使うのが一番早いんじゃないかと思います。

この回答への補足

回答ありがとうございます。

>grep は、複数のファイルを一度に処理できますから、起動は一回だけで済みます。
>
ファイルは1つです。その中で検索する文字列が40個あります。
それぞれの個数を調べるにはやはり40回のgrepが必要ですか?

あと、その前後の処理をperlで書いてしまっているので、perl上で処理できるように
したいというのがあります。
また、systemコマンドでgrepを呼んだとすると、その結果をperlで処理するのはどうするのでしょうか?
grepの結果をファイルに一度結果を出力する必要があるのでしょうか?

補足日時:2002/01/15 19:08
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

今、見られている記事はコレ!

  • 【長谷川豊】『サミットあれこれ』

    「長谷川さんの知る『サミットの裏側』を教えてください」 というメールを頂きました。一応、知ってる範囲で話をします。 まず、サミットは「ただのパフォーマンスの場ではないか?」というお声に対する返事ですが...

  • 先行きの見えない不安を抱える被災地のみなさんに心理学者がアドバイス

    熊本地震から約1ヵ月半が過ぎ、今でも避難所や車中で生活している方も大勢いる状況だ。長引く避難生活は不安感を増大するもの。前回は「余震で眠れない被災地のみなさんに向け心理学者がアドバイス」にて、不安で眠...

  • たまランチ:第47話「さつまいも」

    外ランチを愛してやまない元気な女子社員・たまちゃん(26)。オシャレなお店より「安くておいしい」お店が大好き! そんな女子力低めなたまちゃんの、色気より食い気な日々をつづります。

  • エルフ田さん:第71話「貯められる人」

    エルフ(ファンタジーとかに出てくる長寿の種族)の「エルフ田」と、ただの人間である女子社員2人による日常ギャグ。エルフならではのズレたツッコミでバシバシ人間界の話題を斬っていきます。

  • 感情的にならない人の気質

    あなたの身の回りで感情表現が薄い人はいないだろうか? 感情表現が薄いといい意味でクールに感じ、大人な印象を持つ人も多いだろう。だが、一方で何を考えているか分からず、とっつきづらい印象を抱くこともあるの...

おしトピ編集部からのゆる~い質問を出題中

お題をもっとみる

このQ&Aを見た人が検索しているワード


このQ&Aを見た人がよく見るQ&A

このカテゴリの人気Q&Aランキング

おすすめ情報

カテゴリ