コマンドライン上でのデータの突き合わせについて

Question

UNIX系のコマンドのみを利用して、二種類のファイルを突き合わせする方法がないか悩んでいます。

file_a.csv → ユニークなIDのみ
file_b_01.csv～file_b_20.csv → ユニークID,aaaaa,bbbbbb,cccccc・・・・

file_a.csvに記載されたIDが、file_b_01.csv～file_b_20.csvのIDにあるか確認し、一致した場合はその行を別ファイルに出力します。

grepを使用した場合、行全体がスキャンの対象になるため使用できません。
コマンドラインからperlなども使えない状態です。

何かいい方法はないでしょうか。

trapezium · Accepted Answer

> 質問が間違っていました。file_bのマッチさせたいフィールドが3つ目のフィールドとなります。それでもほとんど一緒ですよ。 while read a; do egrep "^(.*,){2}${a}," file_b*; done < file_a.csv > out.csv とか、${a} が正規表現に引っ掛りそうなら while read a; do awk -F, '{if ($3=="'${a}'") print $0}' file_b*; done < file_a.csv > out.csv あと必要なら sort | uniq すれば。

tux_the_penguin · Answer

まだよくわかりません。

＞　awkでfile_b*.csvの該当箇所を切り出し、
＞　file_a.csvを読み込んで比較させて、

これ逆じゃないですか？

file_a.csvが改行区切りになっているなら「切り出す」必要はなくシェルが１行ずつ読み込みます
そして検索されるファイルを１行毎に処理するgrepやawkの標準的な動作で充分です

＃１さんのwhileを書き直してみました

for a in `cat file_a.csv`; do grep -h "${a}" file_b*.csv; done

whileループをforループに置き換えただけです
これならわかりますか？
（検索語が行頭ではないとのことなので「^」を外しています）

また、file_b*.csvの第３フィールドにIDがあるとのことですが
それがどれほど重要なのかが不明です。
第３ではない他のフィールドに別のIDが含まれるデータが存在すると言うのでなければ
まったく考慮する必要のない情報ということになります
grepは１行毎にその検索語があるかないかだけ見ます
もしID(と同じ文字列)を含むデータが他のフィールドに存在する可能性があるなら、
file_b*.csvの第３フィールドに限定して検索する必要があるので
awkで「切り出し」て比較することになり、ちょっと複雑な処理です。

I　台本をmickyに覚えてもらい１つずつ教えてもらう
II　mickyのセリフの書かれたＴシャツをタンスからさがしてminnieに持たす
　　　　（胸だろうが背中だろうが区別しない(できない)）
III　minnieの持っているＴシャツの胸の言葉をdonaldに覚えてもらう
IV　mickyとdonaldが同じ事を言っていたら
　　　　minnieのＴシャツを箱にしまう
　　　　そうじゃなければそのＴシャツは放り投げる
V　Iに戻ってmickyに次のセリフを聞く

さらに、件の「ユニークID」はfile_b*.csv群のなかに１回だけ現れるのか複数回登場するのか
はたまた存在しないこともあるのかが重要だと思います。
この場合minnieがＴシャツを一度に２枚持つことになりさらに複雑化する

＃何をもって「ユニーク」と呼称したのかにもよりますが
＃他フィールドに含まれていたり複数回登場したりだったら「ユニーク」ではないような。

検索でヒットした行全体をそのまま出力で
元はどのファイルにあったデータなのか(file_b3.cvsだったのかfile_b14.csvなのか両方なのか)が
必要ない情報なら至極単純なgrepで事足りるのです
minnieに持たせずそのまましまうだけ。donaldも出る幕無し。

＃　…で出力ファイルは１つ？各IDごと？

Tacosan · Answer

あと, file_b_*.csv の中身が「どのくらい複雑なのか」によっても変わってきます. つまり「カンマで区切られたデータ」の中にカンマが含まれていたりするとめんどくさい.
そうじゃなくて単に「3つ目のカラムにある」というだけなら, grep でも awk でも.

tux_the_penguin · Answer

重要な情報が提示されていないので明確な回答がつきにくいと思います

file_a.csv　にある「ID」はどう並んでいるんでしょうか？

csvというからにはカンマ（もしくは他の文字）で区切られているのでしょうが
改行はあるのですか？

１行１IDで構成されていれば＃１さんのご提案どおり簡単な話だと思います。

んじゃfile_a.csvをそういう構成に変換すればよいということです
カンマを改行に置換すれば済みます

出力先となるファイルの作り方もどうしたいのかわかりません
該当する行全体を出力するのか
ID毎に１つずつファイルをつくるのか
１つのファイルに追記していくのか。

行全体の出力で１つのファイルだと　cat file_b_*.csv を何らかの形でソートした事と同一かも知れない

質問内容からは難しさが読み取れません
入出力データがどんな状態なのかはっきりさせると
有用・的確なアドバイスを得られるかもしれません

trapezium · Answer

別に grep でも良さそうな気がする

while read a; do grep -h "^${a}," file_b*.csv; done < file_a.csv

awk でもいいかもしんない。

コマンドライン上でのデータの突き合わせについて

> 質問が間違っていました。

まだよくわかりません。

あと, file_b_*.csv の中身が「どのくらい複雑なのか」によっても変わってきます. つまり「カンマで区切られたデータ」の中にカンマが含まれていたりするとめんどくさい.

重要な情報が提示されていないので明確な回答がつきにくいと思います

別に grep でも良さそうな気がする

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング