perlによる ファイル内容 検出方法について
なかなかPerlに慣れない初心者です。
大量のデータ処理のため、効率よいプログラムを教えてください。
下記のような2ファイルがあります。
ファイル(1) 数千万行 タブ区切り 5列
00:00:00^ 1212bb121ab21^ AAAA^ あいす なつ^ 1
00:00:00^ 1212bb121ab21^ BBBB^ ちゃいろ^ 1
00:00:00^ 3a12bb121ab21^ ABABCDD^ さんすう 理科 100点^ 1
00:00:00^ fa12bb1333b1e^ ACF^ さんすう 理科 100点^ 1
00:00:00^ ea12bb1333b1e^ ZZZZZ^ 社員 会社^ 1
00:00:00^ za12bb1333b1e^ ZZAZZ^ 担当^ 1
…
ファイル(2) 百万行 タブ区切り 2列
1212bb121ab21^ あいす
3a12bb121ab21^ 98点
ea12bb1333b1e^ 社員
ea12bb1333b1e^ 会社
…
この場合、ファイル(2)の内容がファイル(1)にあった場合、そのリストをファイル出力したい。
OUTPUTファイル
1212bb121ab21^ あいす
ea12bb1333b1e^ 社員
ea12bb1333b1e^ 会社
…
どのように書けばよいか 教えてください。
No.4ベストアンサー
- 回答日時:
この例だけで単純に考えれば 2列目をキーにして出力していけばよいだけみたいだし、
先頭は時間ぽい?
ということは固定長扱いに出来そうですね。
ということで、2列目だけの連想配列作ってキーがあるか無いかで
判断するのはどうでしょう?
数百万程度なら20分もあれば終わりそうだけど。。。
#実装はイメージです(笑
my %PK = ();
open($FILE_1, '<') || die;
while( <$FILE_1> ){ $PK{ substr($_,8,13) } = 1; }
close($FILE_1);
open($FILE_2,'<') || die;
open(OUT, '>OUTPUT_FILE');
while( ($line = <$FILE_2>) )
{ print OUT $line if( exists($PK{ substr($line,0,13) }) ); }
close(OUT);
close($FILE_2);
オンメモリーで処理していくのでそれなりのメモリは使うかもしれません。
ちなみに、UNIXならjoinというコマンドもあります。
No.3
- 回答日時:
これだけ大きなデータを効率よく操作するなら、データベースにしてしまうのがいい気がします。
ファイル内容に ',%等 DB格納時にエラーとなるものが多数入っているため、ファイルでの処理をしたいと思っております。
また、ファイルが今後も増えていくことがあり、できれば基本プログラムを作っておきたいと考えております。
アドバイスいただき、ありがとうございます。
No.2
- 回答日時:
サンプルを作った後に、質問文の中に「効率のよいプログラムを」と
書いてあったのに気づきました……。
効率はあまり考えてないですが、何かのヒントになれば。
=========================
#!/usr/bin/perl
use strict;
use warnings;
my $file1_path = "./file1.txt";
my $file2_path = "./file2.txt";
my $output_path = "./output.txt";
my @file1_data = ();
my @file2_data = ();
my @output_data = ();
my @buff = ();
#+-- file1の内容を取得 --+#
open F1, "< $file1_path";
@file1_data = <F1>;
close F1;
#+-- file2の内容を取得 --+#
open F2, "< $file2_path";
@file2_data = <F2>;
close F2;
#+-- 比較 --+#
for ( my $i = 0; $i <= $#file2_data; $i++ ) {
# 改行コードを削除
$file2_data[$i] =~ s/\n//g;
# TABで分割
@buff = split( "\t", $file2_data[$i] );
# grepでマッチするものがあるかどうか確認
if ( grep ( /^..:..:..\t$buff[0]\t.*$buff[1].*\t.*$/, @file1_data ) ) {
# マッチするものを確保
push @output_data, $file2_data[$i];
}
}
#+-- 出力 --+#
open OUT, "> $output_path";
for ( my $j = 0; $j <= $#output_data; $j++ ) {
print OUT $output_data[$j], "\n";
}
close OUT;
exit;
=========================
grepでの対応は自分でも試みているのですが、どうもすごい時間がかかり、処理結果はなかなかでてこないのです。
perl初心者のため、基本的なプログラムもまともにかけないので、参考にさせていただきます。
ありがとうございました。
No.1
- 回答日時:
^ は何を意味するのでしょうか? そして, 「ファイル(2)の内容がファイル(1)にある」とはどういう時を指すのでしょうか?
しかし, 「百万行」とか「数千万行」とかの巨大なファイルを扱うのもすごいけど, そんなファイルを作るのもすごいなぁ....
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
- ・ゆるやかでぃべーと タイムマシンを破壊すべきか。
- ・歩いた自慢大会
- ・許せない心理テスト
- ・字面がカッコいい英単語
- ・これ何て呼びますか Part2
- ・人生で一番思い出に残ってる靴
- ・ゆるやかでぃべーと すべての高校生はアルバイトをするべきだ。
- ・初めて自分の家と他人の家が違う、と意識した時
- ・単二電池
- ・チョコミントアイス
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
LaTeXのinputの応用について
-
AutoNts
-
window.open でのファイル指定方法
-
繰り返し表示
-
fgets で値が取得できない
-
区切りファイルの列ソートについて
-
MATLABのm-fileについて
-
VBA テキストファイルを読み取...
-
ファイルの存在の有無を確かめ...
-
圧縮された.tgzファイルの一部...
-
close()で例外が投げられる理由
-
タブの色を変更する方法
-
[perl] もっとシンプルに改良、...
-
エクセルVBA コードが同じでも...
-
バッチファイルの作り方(CSV→...
-
VBAでCSVファイルの特定行を書...
-
VBAで巨大なファイルの途中から...
-
ExcelをCSV書き出す場合のシー...
-
VBScriptでファイル保存先のデ...
-
FORTRANのプログラミング
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
python renameについて
-
window.open でのファイル指定方法
-
MATLABのm-fileについて
-
fgets で値が取得できない
-
csvファイルの横方向への改行に...
-
巨大なテキストの最終行を取得...
-
Firefox で file:// で始まる U...
-
JSP URLに表示される拡張子 .jsp
-
重複ファイル名ある場合ファイ...
-
ファイルの存在の有無を確かめ...
-
ファイル全てを .xlsm に変更し...
-
PerlでのUseless use...
-
行を指定して削除する方法PERL
-
VBA テキストファイルを読み取...
-
HTMLのフォームで画像と文...
-
perl ファイルが開かない
-
並び方、
-
read() on unopened filehandle...
-
drtファイルはどうしたら開...
-
VBAコードを張り付け後のエクセ...
おすすめ情報