顧客データファイル(姓名、郵便番号、住所)が8ファイルほどあり、データ量が90000件ほどのデータで各ファイルに重複している顧客データを間引いて精査したいのですが、手作業でやるとかなり面倒です。
何か良い方法はありませんか?
1月中に案内状を出さないといけないのでかなり焦っています。
データのフォーマットは各ファイルごとに多少違います。
例えば、姓名の間にスペースがあるか、ないか。郵便番号の3桁目と4桁目に"-"があるか、ないか。住所の県名、市名の間にスペースがあるか、ないか。
また、一部郵便番号は『0501234』は0が省略され『501234』になっているものもあります。
No.4ベストアンサー
- 回答日時:
(1)アクセスかエクセルか
エクセルの方しかないのでは。VBAができると、少しチェックや修正作業で手間が省けるのだが。
(2)顧客数の問題
9万であれば、エクセル1シートにはできないです。それで3万X3シートぐらいに持っていく方法はないですか。
郵便番号が違えば、別人と割り切って(同一人の転居もありえるが)、その地域分割で分割するのが良い。
3分割したそれぞれは3度同じ作業は覚悟すること。
(3)郵便番号の正常化
5桁、6桁のものは前に0,00を埋める。
(4)名前の問題
そして同一人かどうかは名前が一番の鍵を握っている。だが姓と名がくっついているのが障害になる。
名前でスペースまでが3文字を以上のものは、空白がない疑いがあるとして、チェックする。スペースも半角・全角がうるさい。
(5)半角・全角
JIS、ASC関数でどちらかに、郵便番号、氏名列ごとにそろえる
(6)同一人の判定
郵便番号+名前でソートし、人間が全件目で見て同一人かどうかチェックし、同一人は1を空き列に書き込んで、その列でソートし、まとまった行を一括削除。
郵便番号、氏名以外は今回は目をつむる。時間がない。
上記の中に、関数を使うところがあるが、どんな式になるか分かるでしょうか。
難しいですね、手間がかかりますね。リスクを完全にはなくせませんね。1週間しかないしね。
しかし、手間をかけないでやる方法はないですね。
(7)関数例
取り急ぎ大雑把ですが
関数=IF(LEN(A13)>3,MID(A13,1,2)&" "&MID(A13,3,LEN(A13)-2))
で
大河原強大河 原強
山田音二郎山田 音二郎
になるが、上は不適当例でこんなリスクあり、人間が見つけて訂正。
関数=IF(LEN(A19)<7,TEXT(A19,"0000000"),A19)で
5012340501234
123450012345
No.3
- 回答日時:
私なら ということで
1.氏名のブランクと、郵便番号のハイフンを削除(置換機能)
2.郵便番号-氏名の順でソート
3.郵便番号で10にSHEET分割
0000001~0999999
1000000~1999999
2000000~2999999
・
・
・
8000000~8999999
9000000~9999999
4.10分割したデータを10SHEETに分割
5.10SHEETを新規ブックで保存
6.1~4を7ファイル分行う
7.5.のブックにデータを追加し、保存
氏名の重複は、条件付書式とかで色をつければ見やすいかな。
重複データの住所を見ながら(確認しながら)、削除データを決めればよいでしょうね。
No.2
- 回答日時:
私なら ということで
1.氏名のブランクと、郵便番号のハイフンを削除(置換機能)
2.郵便番号-氏名の順でソート
3.郵便番号で10にSHEET分割
0000001~0999999
1000000~1999999
2000000~2999999
・
・
・
8000000~8999999
9000000~9999999
4.10分割したデータを10SHEETに分割
5.10SHEETを新規ブックで保存
6.1~4を7ファイル分行う
7.5.のブックにデータを追加し、保存
氏名の重複は、条件付書式とかで色をつければ見やすいかな。
重複データの住所を見ながら(確認しながら)、削除データを決めればよいでしょうね。
No.1
- 回答日時:
90000件あるのであればExcelでは限界かと思います。
Accessに取り込んだ上で、クエリの集計で名前毎にグループ化してカウントして下さい。同じものであれば数が1以上になるはずですからそれを調べていけばいいと思います。
ただし、"山田 太郎"と"山田太郎"は別物としてカウントされる事はありますので、絶対ではありません。
データのフォーマットは、取り込む前に統一した方がいいと思いますが、必ずバックアップを取った上で修正して下さい。
参考URL:http://mailsrv.nara-edu.ac.jp/~asait/visual_basi …
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- Excel(エクセル) 【Excel】住所に郵便番号を付記する方法 3 2022/05/07 17:15
- Visual Basic(VBA) 指定月分の顧客データファイルを統合して並べ替え、所定の場所に貼り付ける 3 2022/09/10 07:55
- Visual Basic(VBA) 指定月分の顧客データファイルを統合して並べ替え、所定の場所に貼り付ける (再質問) 4 2022/09/14 22:51
- Excel(エクセル) エクセルの住所から郵便番号を表示するには 2 2022/09/01 16:18
- Excel(エクセル) 【エクセル】元データからの引用 5 2022/04/18 10:22
- Excel(エクセル) Excel 指定した固有番号で、複数の行を削除する方法は? 2 2022/03/30 15:18
- Excel(エクセル) エクセルデータ。容量を減らすにはどうしたらいい? 11 2022/12/22 09:01
- Excel(エクセル) 【関数】【マクロ】データの転記の方法について 2 2023/07/26 15:22
- Visual Basic(VBA) エクセルのマクロについて教えてください。 1 2023/08/03 11:27
- Access(アクセス) 【至急・画像あり】建物or住所から電話番号を出す方法を教えてください 3 2023/02/17 11:58
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
富士山麓にオウム鳴く?
-
Googleドライブをクイックアク...
-
関西(大阪)から尾瀬に電車、...
-
一方通行や右左折禁止のわかる...
-
ルート50の解き方
-
Googleマップのルートを手動で...
-
パソコンでの『ルート(√)2』...
-
Cドライブ直下に、ファイル等を...
-
googlemapで最寄駅を調べる方法
-
you are an idiot!のアクセス方...
-
横浜駅から200KmのJR駅は
-
京都から名古屋: 一般道での走...
-
パソコンのアプリ版のGoogleド...
-
√6のようなルートを少数に直す...
-
大阪~草津までの一般道最短ル...
-
通所手当:定期購入のタイミン...
-
通勤経路をわざわざ遠いところ...
-
新潟から軽井沢おもちゃ王国
-
エクセルでルートの上の棒を長...
-
京都から名古屋まで下道で行くには
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
富士山麓にオウム鳴く?
-
Googleドライブをクイックアク...
-
関西(大阪)から尾瀬に電車、...
-
√96の解き方
-
SDカードに取り込んだ音楽の...
-
通勤経路をわざわざ遠いところ...
-
自宅から最寄りの駅までの地図...
-
横浜駅から200KmのJR駅は
-
一方通行や右左折禁止のわかる...
-
google mapでのルート検索を良...
-
昼休みに来る人ってどういう神...
-
√6のようなルートを少数に直す...
-
2023.4.18東京から松本.安房峠...
-
ルート50の解き方
-
Googleマップのルートを手動で...
-
googlemapで最寄駅を調べる方法
-
nslookup時のDNSサーバのタイム...
-
京都から名古屋: 一般道での走...
-
定期券で途中で降りたらお金取...
-
番地までは分かっているがマン...
おすすめ情報