perlで大容量CSVのsort方法について

解決済

質問者：hihin2003
質問日時：2010/06/25 20:57
回答数：3件

perlで大容量CSVのsort方法について

perlでcsvファイル100MB超のファイルをソートしたいと思ってますが、以下の方法でメモリーの関係上(と思ってます。)できません。

ソートを行う方法がありますでしょうか?
件数も11万件あるので、エクセルでソートしてからの受け渡しが出来ずに悩んでます。

(ここから)
#sortロジック
sub sort {
use warnings;
use feature ':5.10';

open my $ifh, '<', $inport or &error("Can't open $inport");
my @lines = <$ifh>;
close $ifh;

print @lines, "\n";
#csvファイル何番目?

my @sorted = map { $_->[0] }
sort { $b->[0] <=> $a->[0]}
map { [(split q{,}, $_)[0], $_] }
@lines;

@lines = @sorted;
exit;
}
(ここまで)

いつも貴重なアドバイスをありがとうございます。よろしくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： kumoz
回答日時：2010/06/26 16:24

ファイルを１度に読み込まずに、while ループで読み込んでソートキーをハッシュのキーに割り当て、ハッシュの配列に保存して、一定数になったらファイルに保存して、最後にまとめればそれほどメモリは必要ないと思います。

my %sorted;

while (my $line = <$fh>) {
my $key = (split /,/, $line)[0];
push @{$sorted{$key}}, $line;
if (@{$sorted{$key}} == 1000) {
open OUT, ">>$key.tmp" or die "Can't open: $!";
print OUT @{$sorted{$key}};
close OUT;
@{$sorted{$key}} = ();
}
}

open OUT, ">out.txt" or die "Can't open: $!";
foreach my $key (sort { $b <=> $a } keys $sorted) {
if (-e "$key.tmp") {
open IN, "$key.tmp" or die "Can't open: $!";
print OUT while <IN>;
close IN;
}
print OUT @{$sorted{$key}} if @{$sorted{$key}};
}
close OUT;

- 0
- 件

通報する

この回答へのお礼

早速やってみました。
すごいです!!
無事動作させることが出来ました!!
140MBを超えるデータですが、1分かからないで終わります。
こんなにパフォーマンスが向上する方法があるのかと目から鱗です。
いつも助かります。ありがとうございました。

通報する

お礼日時：2010/06/26 23:15

No.3

回答者： kumoz
回答日時：2010/06/26 20:33

> foreach my $key (sort { $b <=> $a } keys $sorted) {

No2 です。１つ誤記がありました。訂正します。

foreach my $key (sort { $b <=> $a } keys %sorted) {

- 0
- 件

通報する

この回答へのお礼

訂正ありがとうございます。
助かります。

通報する

お礼日時：2010/06/26 23:13

No.1

回答者： kmee
回答日時：2010/06/25 22:11

メモリが無理なら、ファイルに頼るしかないでしょう。

ファイルのような外部記録を使ったソートアルゴリズムには自然マージソートがあります。
この方法だと、1行ずつ処理すればいいので、メモリはそれほど使いません。

CPANのFile::Sortモジュールがmerge sortのようです。
http://search.cpan.org/~cnandor/File-Sort-1.01/S …

あるいは、Cとかのソースは見付かるので、自分で作ってもいいでしょう。