Perlの初心者です。２重ループの方法で困ってます。

Question

ある二つのファイル（moto1.csvとmoto2.csv）の２番目のフィールドが
おなじときに二つのファイルの中身をあわせて別のファイル（kekka.csv）を
作る作業をしています。
下記のソースで※２の場所で何回もファイルをオープンさせるととても重いので
※１でファイルを一回だけオープンさせて処理しようと思ったら。
内側のループ（moto2_Log）が一回しか処理されないので困っております。

何かよいアイデアがありましたらよろしくお願いします。

open(moto1_Log,"< moto1.csv");
open(kekka_Log,"> kekka.csv");
※１open(moto2_Log,"< moto2.csv");

while( <moto1_Log> ) {
chop;
@moto1_List=split(/,/);

※２#open(moto2_Log,"< moto2.csv");
while( <moto2_Log> ) {
chop;
@moto2_List=split(/,/);

if($moto1_[1] eq $moto2_List[1]){
print kekka_Log $S_List[0];
print kekka_Log ",";
print kekka_Log $S_List[1];
print Export_Log ",";
print Export_Log $S_List[2];
print Export_Log ",";
print Export_Log $S_List[3];
print Export_Log ":";
print Export_Log $E_List[0];
print Export_Log ",";
print Export_Log $E_List[1];
print Export_Log ",";
print Export_Log $E_List[2];
print Export_Log ",";
print Export_Log $E_List[3];
print Export_Log "\n";#改行コード
continu;
}
}
}

close (moto2_Log);
close(kekka_Log);
close(moto1_Log);

Fooky · Accepted Answer

原因についてはa-kumaさんが仰ってる通りですので、代替案を挙げたいと思います。「何回もファイルをオープンさせるととても重いので」ということですが、ファイルを一々巻き戻す(seekする)現在の方法でも、実行時間としてはほとんど変わらないと思いますよ。 openにかかる時間が中身をリードする時間と比較して、誤差以上に意味のある時間になるとは思えません。同様のプログラムをつくって、moto1.csvとmoto2.csvとして 500行のテキストファイル（具体的には500行に切り詰めた Linuxのシステムログ/var/log/messagesファイル）を使って実験したところ、一々オープンする方法の実行時間(47.63秒)は、巻き戻す方法の実行時間(47.28秒)と比較して、たった0.7%しか増加しませんでした。この実験では、moto2.csvは全てキャッシュに乗っていますが、キャッシュに乗りきらないほど大きなファイルになったとしても、さして結果は変わらないと思います。そこで代替案ですが、一旦、片方のファイルを全て配列に読み込んではどうでしょう？ open(moto2_Log, "){ 　chomp; 　my @cols = split(/,/); 　push(@moto2_List, \@cols); } close(moto2_Log); open(moto1_Log, "kekka.csv"); while(){ 　chomp; 　my @moto1_List = split(/,/); 　foreach $m2lst ( @moto2_List ){ 　　if( $moto1_List[1] eq $m2lst->[1] ){ 　　　print kekka_Log ... 　　} 　} } close(kekka_Log); close(moto1_Log); 上の実験と同じ500行のテキストファイルに対して、この方法だと実行時間は約5分の1の、10.17秒となりました。まあ、ファイルアクセスの時間だけじゃなくて、splitの回数も減ってるので、その影響もあるんでしょう。ところで、このアルゴリズムだと、moto1.csvの中の各行とmoto2.csvの中の全行を照合してますが、それはそれで合ってるんでしょうか？ > ２番目のフィールドが > おなじときに二つのファイルの中身をあわせて別のファイル（kekka.csv）を > 作るという辺りから、moto1.csvの各行と、moto2.csvで対応する（ファイルの先頭から数えた行数が同じ）行を照合することを意図しているようにも読めるんですが…。

a-kuma · Answer

二つ目のファイルを一回読み込んだら、読み込み位置がファイルの一番お尻にあるからですね。二つ目のファイルを処理しおわったら、巻き戻しましょう。 open(moto1_Log, ...); open(moto2_Log, ...); while ( ) { 　　... 　　while ( ) { 　　　　... 　　} 　　seek(moto2_Log, 0, 0);　　# ← これ } ってな感じ。＃ perl は良く知らないんですけど、多分OK

leaz024 · Answer

　２件の回答がついていますが、解決はされたのでしょうか？

　質問に書かれたソースと、全く同じ動作をするコードを書いてみました。参考にしてみてください。

　　my　%moto2;

　　open　IN, 'moto2.csv';
　　while (<IN>) {
　　　　chomp;
　　　　my　$_2nd = (split(/,/))[1];
　　　　$moto2{$_2nd} = $_　unless　defined　$moto2{$_2nd};
　　}
　　close　IN;

　　open　OUT, '>kekka.csv';
　　open　IN, 'moto1.csv';
　　while (<IN>) {
　　　　chomp;
　　　　my　$_2nd = (split(/,/))[1];
　　　　print　OUT　"$_, $moto2{$_2nd}\n"　if　defined　$moto2{$_2nd};
　　}
　　close　IN;
　　close　OUT;

○moto2.csvの２番目のデータをキーにしたハッシュを作成します。
　値はそのデータの行全体（改行は抜いたもの）にします。後で結局カンマ区切りの合成をするので、そのまま使うわけです。
○moto1.csvを開いて１行ずつ読み、２番目のデータを取り出します。
　このデータを%moto2のKEYにして値があれば、moto1とmoto2で全く同じデータが存在するわけです。
○kekka.csvには、２番目に同じデータがある行の全項目をカンマ区切りにしたデータを入れるので、split前のデータから改行を抜いたもの同士をカンマを挟んで書き込みます。
　（%moto2のVALUEには、moto2.csvから改行を抜いたデータが入れてある）

Perlの初心者です。２重ループの方法で困ってます。

二つ目のファイルを一回読み込んだら、読み込み位置がファイルの一番お尻に

原因についてはa-kumaさんが仰ってる通りですので、

２件の回答がついていますが、解決はされたのでしょうか？

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　２件の回答がついていますが、解決はされたのでしょうか？