![](http://oshiete.xgoo.jp/images/v2/pc/qa/question_title.png?5a7ff87)
perlによる ファイル内容 検出方法について
なかなかPerlに慣れない初心者です。
大量のデータ処理のため、効率よいプログラムを教えてください。
下記のような2ファイルがあります。
ファイル(1) 数千万行 タブ区切り 5列
00:00:00^ 1212bb121ab21^ AAAA^ あいす なつ^ 1
00:00:00^ 1212bb121ab21^ BBBB^ ちゃいろ^ 1
00:00:00^ 3a12bb121ab21^ ABABCDD^ さんすう 理科 100点^ 1
00:00:00^ fa12bb1333b1e^ ACF^ さんすう 理科 100点^ 1
00:00:00^ ea12bb1333b1e^ ZZZZZ^ 社員 会社^ 1
00:00:00^ za12bb1333b1e^ ZZAZZ^ 担当^ 1
…
ファイル(2) 百万行 タブ区切り 2列
1212bb121ab21^ あいす
3a12bb121ab21^ 98点
ea12bb1333b1e^ 社員
ea12bb1333b1e^ 会社
…
この場合、ファイル(2)の内容がファイル(1)にあった場合、そのリストをファイル出力したい。
OUTPUTファイル
1212bb121ab21^ あいす
ea12bb1333b1e^ 社員
ea12bb1333b1e^ 会社
…
どのように書けばよいか 教えてください。
No.4ベストアンサー
- 回答日時:
この例だけで単純に考えれば 2列目をキーにして出力していけばよいだけみたいだし、
先頭は時間ぽい?
ということは固定長扱いに出来そうですね。
ということで、2列目だけの連想配列作ってキーがあるか無いかで
判断するのはどうでしょう?
数百万程度なら20分もあれば終わりそうだけど。。。
#実装はイメージです(笑
my %PK = ();
open($FILE_1, '<') || die;
while( <$FILE_1> ){ $PK{ substr($_,8,13) } = 1; }
close($FILE_1);
open($FILE_2,'<') || die;
open(OUT, '>OUTPUT_FILE');
while( ($line = <$FILE_2>) )
{ print OUT $line if( exists($PK{ substr($line,0,13) }) ); }
close(OUT);
close($FILE_2);
オンメモリーで処理していくのでそれなりのメモリは使うかもしれません。
ちなみに、UNIXならjoinというコマンドもあります。
No.3
- 回答日時:
これだけ大きなデータを効率よく操作するなら、データベースにしてしまうのがいい気がします。
ファイル内容に ',%等 DB格納時にエラーとなるものが多数入っているため、ファイルでの処理をしたいと思っております。
また、ファイルが今後も増えていくことがあり、できれば基本プログラムを作っておきたいと考えております。
アドバイスいただき、ありがとうございます。
No.2
- 回答日時:
サンプルを作った後に、質問文の中に「効率のよいプログラムを」と
書いてあったのに気づきました……。
効率はあまり考えてないですが、何かのヒントになれば。
=========================
#!/usr/bin/perl
use strict;
use warnings;
my $file1_path = "./file1.txt";
my $file2_path = "./file2.txt";
my $output_path = "./output.txt";
my @file1_data = ();
my @file2_data = ();
my @output_data = ();
my @buff = ();
#+-- file1の内容を取得 --+#
open F1, "< $file1_path";
@file1_data = <F1>;
close F1;
#+-- file2の内容を取得 --+#
open F2, "< $file2_path";
@file2_data = <F2>;
close F2;
#+-- 比較 --+#
for ( my $i = 0; $i <= $#file2_data; $i++ ) {
# 改行コードを削除
$file2_data[$i] =~ s/\n//g;
# TABで分割
@buff = split( "\t", $file2_data[$i] );
# grepでマッチするものがあるかどうか確認
if ( grep ( /^..:..:..\t$buff[0]\t.*$buff[1].*\t.*$/, @file1_data ) ) {
# マッチするものを確保
push @output_data, $file2_data[$i];
}
}
#+-- 出力 --+#
open OUT, "> $output_path";
for ( my $j = 0; $j <= $#output_data; $j++ ) {
print OUT $output_data[$j], "\n";
}
close OUT;
exit;
=========================
grepでの対応は自分でも試みているのですが、どうもすごい時間がかかり、処理結果はなかなかでてこないのです。
perl初心者のため、基本的なプログラムもまともにかけないので、参考にさせていただきます。
ありがとうございました。
No.1
- 回答日時:
^ は何を意味するのでしょうか? そして, 「ファイル(2)の内容がファイル(1)にある」とはどういう時を指すのでしょうか?
しかし, 「百万行」とか「数千万行」とかの巨大なファイルを扱うのもすごいけど, そんなファイルを作るのもすごいなぁ....
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 政治 辻元清美ちゃんの旧統一教会との関係の恥ずかしい言い訳……これで疑惑は更に深まりましたか? 1 2022/09/29 15:42
- 猫 『CATCH ME IF YOU CAN 2』を買ったよ。 1 2023/06/22 09:06
- 電車・路線・地下鉄 初台→新宿3→代官山(7.6km)IC528円 笹塚→新宿3→中目黒(10.2Km)IC433円なぜ 5 2022/11/24 09:26
- タレント・お笑い芸人 相席スタート山添ってYouTube出てるらしいけど 3 2023/06/08 11:54
- 歴史学 ↓近代以前の日本歴代都市は下記リンク先のWikipediaに載ってあるものが全てですか? https 1 2022/06/12 14:50
- ガラケー・PHS ガラホ シャープ [AQUOS SH-06G用 電池パック] アマゾンの互換でも良いでしょうか? 2 2022/04/27 21:56
- ガラケー・PHS ガラホ シャープ [AQUOS SH-06G用 電池パック] アマゾンの互換でも良いでしょうか? 3 2022/04/16 12:46
- UNIX・Linux sedでの正規化 2 2022/05/10 11:39
- その他(車) なんで煽り運転って増えたのですか? 32 2022/04/14 14:47
- 建設業・製造業 三菱電機ビルソリューションズ株式会社って一般的に見て大企業ですか? https://ja.m.wik 3 2023/07/31 22:15
関連するカテゴリからQ&Aを探す
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
ファイル全てを .xlsm に変更し...
-
フォルダーの深さの限界
-
行を指定して削除する方法PERL
-
Perlでファイルを読み込みタグ...
-
CGI.pmで取得したファイルハン...
-
Firefox で file:// で始まる U...
-
巨大なテキストの最終行を取得...
-
powerpointでwebページとして保...
-
PerlでのUseless use...
-
ファイルを読み込んで改行だけ...
-
read() on unopened filehandle...
-
VBAでCSVファイルを途中行まで...
-
ExcelをCSV書き出す場合のシー...
-
C言語でファイル名を取得
-
ダイアモンド演算子<>に対するb...
-
VBAでCSVファイルの特定行を書...
-
ListBoxのデータを高速でファイ...
-
does not map to shiftjis は解...
-
ファイル名の変更
-
pushをすると行ができる
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
window.open でのファイル指定方法
-
csvファイルの横方向への改行に...
-
fgets で値が取得できない
-
MATLABのm-fileについて
-
JSP URLに表示される拡張子 .jsp
-
drtファイルはどうしたら開...
-
PerlでのUseless use...
-
python renameについて
-
巨大なテキストの最終行を取得...
-
ファイル全てを .xlsm に変更し...
-
Firefox で file:// で始まる U...
-
VBAコードを張り付け後のエクセ...
-
perl ファイルが開かない
-
ファイルの存在の有無を確かめ...
-
AutoNts
-
VBA テキストファイルを読み取...
-
fopen64について
-
行を指定して削除する方法PERL
-
文字列をカウントする方法
-
read() on unopened filehandle...
おすすめ情報