perlによる　ファイル内容　検出方法について

Question

perlによる　ファイル内容　検出方法について
なかなかPerlに慣れない初心者です。
大量のデータ処理のため、効率よいプログラムを教えてください。
下記のような２ファイルがあります。
ファイル(1)　数千万行　タブ区切り　5列
00:00:00^       1212bb121ab21^        AAAA^      あいす なつ^        1
00:00:00^       1212bb121ab21^        BBBB^      ちゃいろ^        1
00:00:00^       3a12bb121ab21^        ABABCDD^      さんすう 理科　100点^        1
00:00:00^       fa12bb1333b1e^        ACF^      さんすう 理科　100点^        1
00:00:00^       ea12bb1333b1e^        ZZZZZ^      社員　会社^        1
00:00:00^       za12bb1333b1e^        ZZAZZ^      担当^        1
…
ファイル(2)　百万行　タブ区切り　2列
1212bb121ab21^      あいす
3a12bb121ab21^　　　98点
ea12bb1333b1e^      社員
ea12bb1333b1e^　　　会社
…
この場合、ファイル(2)の内容がファイル(1)にあった場合、そのリストをファイル出力したい。
OUTPUTファイル
1212bb121ab21^      あいす
ea12bb1333b1e^      社員
ea12bb1333b1e^　　　会社
…
どのように書けばよいか　教えてください。

tsuduki123 · Accepted Answer

この例だけで単純に考えれば 2列目をキーにして出力していけばよいだけみたいだし、

先頭は時間ぽい?
ということは固定長扱いに出来そうですね。
ということで、2列目だけの連想配列作ってキーがあるか無いかで
判断するのはどうでしょう?
数百万程度なら20分もあれば終わりそうだけど。。。

#実装はイメージです(笑
my %PK = ();
open($FILE_1, '<') || die;
while( <$FILE_1> ){ $PK{ substr($_,8,13) } = 1; }
close($FILE_1);

open($FILE_2,'<') || die;
open(OUT, '>OUTPUT_FILE');
while( ($line = <$FILE_2>) )
{ print OUT $line if( exists($PK{ substr($line,0,13) }) ); }
close(OUT);
close($FILE_2);

オンメモリーで処理していくのでそれなりのメモリは使うかもしれません。
ちなみに、UNIXならjoinというコマンドもあります。

kmee · Answer

これだけ大きなデータを効率よく操作するなら、データベースにしてしまうのがいい気がします。

hyter · Answer

サンプルを作った後に、質問文の中に「効率のよいプログラムを」と書いてあったのに気づきました……。効率はあまり考えてないですが、何かのヒントになれば。 ========================= #!/usr/bin/perl use strict; use warnings; my $file1_path = "./file1.txt"; my $file2_path = "./file2.txt"; my $output_path = "./output.txt"; my @file1_data = (); my @file2_data = (); my @output_data = (); my @buff = (); #+-- file1の内容を取得 --+# open F1, "< $file1_path"; @file1_data = ; close F1; #+-- file2の内容を取得 --+# open F2, "< $file2_path"; @file2_data = ; close F2; #+-- 比較 --+# for ( my $i = 0; $i <= $#file2_data; $i++ ) { # 改行コードを削除 $file2_data[$i] =~ s/ //g; # TABで分割 @buff = split( " ", $file2_data[$i] ); # grepでマッチするものがあるかどうか確認 if ( grep ( /^..:..:.. $buff[0] .*$buff[1].* .*$/, @file1_data ) ) { # マッチするものを確保 push @output_data, $file2_data[$i]; } } #+-- 出力 --+# open OUT, "> $output_path"; for ( my $j = 0; $j <= $#output_data; $j++ ) { print OUT $output_data[$j], " "; } close OUT; exit; =========================

Tacosan · Answer

^ は何を意味するのでしょうか? そして, 「ファイル(2)の内容がファイル(1)にある」とはどういう時を指すのでしょうか?
しかし, 「百万行」とか「数千万行」とかの巨大なファイルを扱うのもすごいけど, そんなファイルを作るのもすごいなぁ....

perlによる ファイル内容 検出方法について

この例だけで単純に考えれば 2列目をキーにして出力していけばよいだけみたいだし、

これだけ大きなデータを効率よく操作するなら、データベースにしてしまうのがいい気がします。

サンプルを作った後に、質問文の中に「効率のよいプログラムを」と

^ は何を意味するのでしょうか? そして, 「ファイル(2)の内容がファイル(1)にある」とはどういう時を指すのでしょうか?

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

perlによる　ファイル内容　検出方法について