csvファイルの1カラム目に重複行があればその行全体を削除するには？

解決済

質問者：tomoremo
質問日時：2003/11/05 19:27
回答数：4件

次のようなファイルがあった場合、

1, 2, 3
1, 3, 5
2, 4, 7
3, 1, 0
3, 1, 2
3, 7, 1
4, 0, 0
5, 0, 0

1カラム目が重複する行を検索して、該当する行全体を削除し、(最初に見つかった行はそのままで、それ以降の重複行は削除したい)次のようなファイルにする場合は、どのようなコマンド、スクリプト作成すればよいでしょうか？

1, 2, 3
2, 4, 7
3, 1, 0
4, 0, 0
5, 0, 0

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (4件)

ベストアンサー優先
最新から表示
回答順に表示

No.4ベストアンサー

回答者： nightowl
回答日時：2003/11/06 10:42

こんにちは。

データは第１カラムでソートしてあるとして、
uniq(ユニーク)コマンド単体でもいけます。

$ uniq -w 1 csvfile

GNU uniq の場合、「-w N」または「--check-chars=N」(N は数字)
オプションを使えば、(他のオプションでフィールドや文字のスキップをした後の)
先頭から N 文字までしか比較しません。
N には第１カラムの最大文字数を指定してください。詳しくは man uniq で。

参考URL：http://www.linux.or.jp/JM/html/gnumaniak/man1/un …

- 1
- 件

通報する

No.3

回答者： tatsu99
回答日時：2003/11/05 20:15

もし、perlでよければ、以下のようなスクリプトを作成してください。

---------------------------------------
while(<>){
($col1) = split(/,/);
if ($data{$col1}) {next;}
$data{$col1} = 1;
print ;
}
---------------------------------------
perl このスクリプト名　入力データファイル > 出力データファイル
とすると、出力データファイルに結果が書き込まれます。

- 0
- 件

通報する

No.2

回答者： chie65536
回答日時：2003/11/05 20:08

Microsoft Accessをお持ちであれば、MDBに読み込ませるのが手っ取り早いでしょう。

Accessで空のＤＢを作り、必要な数の文字列項目を持ったテーブルを作り、先頭の項目のみ「インディックス付き、重複を許さない」にしておきます。

次に、ＣＳＶファイルを作っておいたテーブルにインポートします。すると、先頭項目が重複を許していないので、重複したレコードが捨てられます。（捨てられた重複レコードは「インポートエラー」と言うテーブルに保存されます）

そして、そのテーブルをエクスポートしてＣＳＶ形式で保存すれば、目的を達する事が出来ます。