頻度表の作成(Perl初心者です)

Question

自分のPerlの知識と能力では全くわからなかったので、ご質問いたします。今、タブ区切りのデータがあります。※下記のデータは便宜上、タブを/で表現しています。

現在、下記のようなデータが10万ぐらいあるのですが、10万の中から、タブの６、７、８番目の３つのデータで全く同じになった場合、カウントしたいと思っています。

＜データ＞
PB10_00045/10/B/神々/カミガミ/神々/カミガミ/名詞-普通名詞-一般/0/1/カミガミ/10/30/神々/0/1/1

PB10_00047/20/I/の/ノ/の/ノ/助詞-格助詞/0/1/ノ/30/40/の/0/1/1

PB10_00047/30/I/零落/レイラク/零落/レイラク/名詞-普通名詞-サ変可能/0/1/レーラク/40/60/零落/0/1/1



例えば、上の例であれば、６、７、８は次のようになりますが、
１つ目のデータ：６→神々、７→カミガミ、８→名詞-普通名詞-一般
２つ目のデータ：６→の、７→ノ、８→助詞-格助詞
３つ目のデータ：６→零落、７→レイラク、８→名詞-普通名詞-サ変可能
６、７、８の3つのデータでちがうので、下記のように文頭にそれぞれ頻度を１と表したいです。※３つでそろった場合のみ、カウントを増やしたいです。


1/PB10_00045/10/B/神々/カミガミ/神々/カミガミ/名詞-普通名詞-一般/0/1/カミガミ/10/30/神々/0/1/1

1/PB10_00047/20/I/の/ノ/の/ノ/助詞-格助詞/0/1/ノ/30/40/の/0/1/1

1/PB10_00047/30/I/零落/レイラク/零落/レイラク/名詞-普通名詞-サ変可能/0/1/レーラク/40/60/零落/0/1/1


現在、ウィンドウズの環境で、Perlは5.8を使っております。
どなたか、助けてくださると、幸いです。

sakusaker7 · Accepted Answer

#2になにも返事してないってことは丸投げ?
そもそも「ご質問」はないわな。

#!/usr/bin/perl
use strict;
use warnings;

my $delim = '/';
my %counts;
my %lines;

while (my $line = <DATA>) {
    chomp $line;
    my $key = join $delim, (split $delim, $line)[5,6,7];
    $counts{$key}++;
    $lines{$key} ||= $line;
}

foreach my $key (keys %lines) {
    #printf "%d/%s
", $counts{$key}, $lines{$key};
    printf "%d/%s
", $counts{$key}, $key;
}


__END__
PB10_00045/10/B/神々/カミガミ/神々/カミガミ/名詞-普通名詞-一般/0/1/カミガミ/10/30/神々/0/1/1
PB10_00047/20/I/の/ノ/の/ノ/助詞-格助詞/0/1/ノ/30/40/の/0/1/1
PB10_00047/30/I/零落/レイラク/零落/レイラク/名詞-普通名詞-サ変可能/0/1/レーラク/40/60/零落/0/1/1
PB10_00045/10/B/神々/カミガミ/神々/カミガミ/名詞-普通名詞-一般/0/1/カミガミ/10/30/神々/0/1/1
PB10_00047/20/I/の/ノ/の/ノ/助詞-格助詞/0/1/ノ/30/40/の/0/1/1
PB10_00047/30/I/零落/レイラク/零落/レイラク/名詞-普通名詞-サ変可能/0/1/レーラク/40/60/零落/0/1/1
PB10_00045/10/B/神々/カミガミ/神々/カミガミ/名詞-普通名詞-一般/0/1/カミガミ/10/30/神々/0/1/1
PB10_00047/20/I/の/ノ/の/ノ/助詞-格助詞/0/1/ノ/30/40/の/0/1/1
PB10_00048/20/I/の/ノ/の/ノ/名詞－非自立/0/1/ノ/30/40/の/0/1/1
PB10_00050/20/I/の/ノ/の/ノ/助詞-格助詞/0/1/ノ/30/40/の/0/1/1

>perl okw.pl
3/神々/カミガミ/名詞-普通名詞-一般
2/零落/レイラク/名詞-普通名詞-サ変可能
4/の/ノ/助詞-格助詞
1/の/ノ/名詞－非自立

十万件あったとして、みたとこデータ一件が100バイトそこそこですから
Perlが管理するために余計なものが引っ付いたとしても
PCのスペック次第でいけなくもないでしょう。
頻度表とやらで出力するときに行丸ごとが必要ないならその分減るでしょうし。

Tacosan · Answer

できなかったにしても, 単に「できなかった」とだけ書くのではなく「これこれこうなった」とまで書くようにしてほしい. 実際にどうなったかというのは, 考える上で大きなヒントになる. あなたの周りがどうかはさておいて, 一般に超能力者は多くないと推定されるんだから. 「回答しやすい質問」というものを心掛けてほしいなあ.
でなんだけど, これは「split をそのまま書いたんだろうな」と推測できる. もしそうなら, split するときにタブで区切るように直してくれ.

Tacosan · Answer

面倒なことをしたくなかったらハッシュを使えばいいんじゃないの?
例えば
while (<>) {
++$occurence{join('/', (split(m!/!))[5, 6, 7])};
}
で終わり?
もちろん順序が重要なときにはそれなりの処理が必要ですが.

mizutaki · Answer

10万件のデータというのが厄介だなぁ
そのデータはある程度固定であり、ごく希にしか内容が変化しない、と仮定の上にあれば、これで何とかなると思います。

１．6,7,8番目をソートキーとしてソートする。
２．前の行と現在の行を順番にチェックしていく
３．6,7,8,がそれぞれ同一内容ならカウントを増やし、違っていたらファイルへ追記出力
４．ループで無くなるまでやる
こんな感じでやれば、チェック出来るかな？

sort { (split(/	/,$a))[$x]<=>(split(/	/,$b))[$x]; } @array; //二次元配列を昇順ソートする $xにはソートキーになる配列番号を入れる
を使用して、6,7,8をそれぞれ1回ずつソートしたデータを作って、
後はループでガンガン。

問題点としては、一度ソートしてしまうので、順番が狂うと困る場合には、全行程終了後にソートし直す必要がある。ソート回数が多いので時間がかかる。
データを追記したり変更する場合には、それなりに凝ったアルゴリズムで対策した方がいい。
と、いろいろと面倒な部分もありますが、
これで何とかなりそうですか？

mizutaki · Answer

6と7と8が=になったらカウントアップ、という事なのですか？
もしそうでしたら、splitとstrcmpあたりを使えば出来ますけど、
それでいいのでしょうか？
if文を少し組み合わせれば、出現頻度が調べれますけど

頻度表の作成(Perl初心者です)

#2になにも返事してないってことは丸投げ?

面倒なことをしたくなかったらハッシュを使えばいいんじゃないの?

この回答への補足

10万件のデータというのが厄介だなぁ

6と7と8が=になったらカウントアップ、という事なのですか？

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング