dポイントプレゼントキャンペーン実施中!

perlによる ファイル内容 検出方法について
なかなかPerlに慣れない初心者です。
大量のデータ処理のため、効率よいプログラムを教えてください。
下記のような2ファイルがあります。
ファイル(1) 数千万行 タブ区切り 5列
00:00:00^ 1212bb121ab21^ AAAA^ あいす なつ^ 1
00:00:00^ 1212bb121ab21^ BBBB^ ちゃいろ^ 1
00:00:00^ 3a12bb121ab21^ ABABCDD^ さんすう 理科 100点^ 1
00:00:00^ fa12bb1333b1e^ ACF^ さんすう 理科 100点^ 1
00:00:00^ ea12bb1333b1e^ ZZZZZ^ 社員 会社^ 1
00:00:00^ za12bb1333b1e^ ZZAZZ^ 担当^ 1

ファイル(2) 百万行 タブ区切り 2列
1212bb121ab21^ あいす
3a12bb121ab21^   98点
ea12bb1333b1e^ 社員
ea12bb1333b1e^   会社

この場合、ファイル(2)の内容がファイル(1)にあった場合、そのリストをファイル出力したい。
OUTPUTファイル
1212bb121ab21^ あいす
ea12bb1333b1e^ 社員
ea12bb1333b1e^   会社

どのように書けばよいか 教えてください。

A 回答 (4件)

この例だけで単純に考えれば 2列目をキーにして出力していけばよいだけみたいだし、


先頭は時間ぽい?
ということは固定長扱いに出来そうですね。
ということで、2列目だけの連想配列作ってキーがあるか無いかで
判断するのはどうでしょう?
数百万程度なら20分もあれば終わりそうだけど。。。

#実装はイメージです(笑
my %PK = ();
open($FILE_1, '<') || die;
while( <$FILE_1> ){ $PK{ substr($_,8,13) } = 1; }
close($FILE_1);

open($FILE_2,'<') || die;
open(OUT, '>OUTPUT_FILE');
while( ($line = <$FILE_2>) )
{ print OUT $line if( exists($PK{ substr($line,0,13) }) ); }
close(OUT);
close($FILE_2);

オンメモリーで処理していくのでそれなりのメモリは使うかもしれません。
ちなみに、UNIXならjoinというコマンドもあります。
    • good
    • 0

これだけ大きなデータを効率よく操作するなら、データベースにしてしまうのがいい気がします。

    • good
    • 0
この回答へのお礼

ファイル内容に ',%等 DB格納時にエラーとなるものが多数入っているため、ファイルでの処理をしたいと思っております。 
また、ファイルが今後も増えていくことがあり、できれば基本プログラムを作っておきたいと考えております。
アドバイスいただき、ありがとうございます。

お礼日時:2010/08/04 13:12

サンプルを作った後に、質問文の中に「効率のよいプログラムを」と


書いてあったのに気づきました……。
効率はあまり考えてないですが、何かのヒントになれば。
=========================
#!/usr/bin/perl

use strict;
use warnings;

my $file1_path = "./file1.txt";
my $file2_path = "./file2.txt";
my $output_path = "./output.txt";
my @file1_data = ();
my @file2_data = ();
my @output_data = ();
my @buff = ();

#+-- file1の内容を取得 --+#
open F1, "< $file1_path";
@file1_data = <F1>;
close F1;

#+-- file2の内容を取得 --+#
open F2, "< $file2_path";
@file2_data = <F2>;
close F2;

#+-- 比較 --+#
for ( my $i = 0; $i <= $#file2_data; $i++ ) {
# 改行コードを削除
$file2_data[$i] =~ s/\n//g;
# TABで分割
@buff = split( "\t", $file2_data[$i] );
# grepでマッチするものがあるかどうか確認
if ( grep ( /^..:..:..\t$buff[0]\t.*$buff[1].*\t.*$/, @file1_data ) ) {
# マッチするものを確保
push @output_data, $file2_data[$i];
}
}

#+-- 出力 --+#
open OUT, "> $output_path";
for ( my $j = 0; $j <= $#output_data; $j++ ) {
print OUT $output_data[$j], "\n";
}
close OUT;

exit;
=========================
    • good
    • 0
この回答へのお礼

grepでの対応は自分でも試みているのですが、どうもすごい時間がかかり、処理結果はなかなかでてこないのです。
perl初心者のため、基本的なプログラムもまともにかけないので、参考にさせていただきます。
ありがとうございました。

お礼日時:2010/08/04 13:09

^ は何を意味するのでしょうか? そして, 「ファイル(2)の内容がファイル(1)にある」とはどういう時を指すのでしょうか?


しかし, 「百万行」とか「数千万行」とかの巨大なファイルを扱うのもすごいけど, そんなファイルを作るのもすごいなぁ....
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!