大規模データの処理について困っています

Question

掲題の通り、大規模データの処理で悩んでおります。行ベクトル150万、列ベクトル14のCSVファイルを読み込もうとしているのですが、データ数が10万以上になるとVisual C++が勝手に動作を停止してしまいプログラムを実行することができません。具体的には、CSVファイル上の4列目に記載されている都道府県名のデータを配列で取り、画面に表示しようと、次のようなプログラムを書いているのですが、 #include #include #include #define FNAME "data.csv" #define NUM 10000 int main(void) { FILE *fp; char buf[256]; char *p_token; char dat[14][100]; int n; int i; long int j; char *place[NUM][15]; place[NUM][15]=(char*)malloc(sizeof(char)*NUM); fp = fopen(FNAME,"r"); if (fp == NULL) { printf("ファイルをオープンできませんでした "); return 0; } for(j=0;j<=NUM;j++){ fgets(buf,256,fp) !=NULL; p_token = strtok(buf, ","); strcpy(dat[0],p_token); n=1; while(-1) { p_token = strtok(NULL,","); if(p_token == NULL) { break; } strcpy(dat[n],p_token); n++; } if(j!=0) { place[j-1][10]=dat[3]; printf("%s ",place[j-1][10]); } } fclose(fp); free(place[NUM][15]); return 0; } NUMの数を10万以上にすると、実行してもプログラムが勝手に停止してしまいます。書籍もネットも大分読み漁ったのですが、処置がまったくわからず途方にくれています。どなたかこうした処理に詳しい方、アドバイスをいただけないでしょうか。よろしくお願い申し上げます。追記：(1)都道府県名を二次元配列で取っているのは、都道府県名が「大阪府」などと、CSVファイル上で日本語で記載されているからです。 (2)プログラムを実行する際にデータ数を10万以上にすると、CSVファイルをフォルダ内においていなくてもプログラムが停止します（ただしコンパイルエラーはでません）。つまり、メモリの確保に問題があるということになるのでしょうか？

echoes_x86 · Accepted Answer

こんばんは．
メモリの制限について気にしておいでのようですが，
それより先に気にすることがあると思います．
何をしたいかはともかくとして，
> char *place[NUM][15];
の部分はかなり問題です．
この場合はmain関数なので救いがありますが，
このような巨大な変数を自動変数として確保してはいけません．
通常，自動変数はスタック領域に取られるからです．
スタック領域はせいぜい数MBですから，それだけで領域を食い潰してしまいます．
大きな変数は必ずヒープ領域から取らなければなりません
(用語の意味が分からない場合はご自身で調べてください，とても基礎的な内容です)．

また，全てのデータを「そのまま」メモリ上に展開する必要があるのでしょうか？
日本語文字列をそのまま展開するより数値なりアルファベットなりに置き換えた方が良いように思えます．
(1)エントリを取得
(2)対応表を探索
  (2a)存在すれば値に置き換える
  (2b)存在しなければ新たな値を定義して置き換える
(3)数値に置き換えた行ベクタをメモリに保存
とすれば，後々ソートもやりやすいかと思いますが．
都道府県名は47しかないので，途中で対応表を操作せずに済むので非常に楽です．
そして，ソートして出力する段で改めて対応表に基づき，値を文字列に直せば良いと思います．

redfox63 · Answer

> fclose(fp);
> free(place[NUM][15]);
この2行の間で
printf( "--- 確認 ---
" );
printf( "%s
", place[0][10] );
printf( "%s
", place[1][10] );
を実行すると面白いかも ・・・

Interest · Answer

ANo.3 = Interest です。
ANo.4のお礼で解決できたかのようなことを書かれていますが、本質的には何も解決してないんじゃありませんか？

> 最終的に何をしようとしているかといいますと、CSV形式のデータから
> 全体を読み込み、商品名と時系列によってソートをかけ全体のデータ
> を行ベクトルごとに並べ替えることを目的としています。

というのが本来の目的なのですね。

> ただ、実は今回のデータ分析は研究目的で行っておりまして、
> 将来的にはさらに大規模なデータを処理する可能性があるからということで、
> 教授に他のソフトウェアを使うのを禁じられています。

でしたら、扱うデータの量が膨大なのですから、処理速度や今後の応用のしやすさも含めて、DBMSをつかうのがベストな選択肢だと思います。なにせ、DBMSはそういう膨大なデータを並べ替えたり、ある条件下のものだけ抽出したりするためのソフトウェアなのですから。

例えば Microsoft Office Access 2007 アカデミック版なら \15,000-くらいで買えますし、CSVファイルをAccessに読み込む（インポートする）ことも簡単です。Accessと簡単な入門本を買ってきたら、PCにインストールしてからCSVファイルをインポートして簡単な並べ替えができるようになるまでに、２時間もかからずに済むんじゃないでしょうか。

実際に大量のデータ解析をしようとすると、入力元のデータにゴミが混じっていたりするので、ごみを取り除く作業が結構手間だったりしますが。

> 何とか教授に怒られないようにがんばりたいと思います。

ちょっとばかり追い詰めれられた感がありますね。指導教官（や上司）の顔色をうかがうようになったらやばい証拠です。「がんばる」のではなく、どうやったら最短の手数で最大の効果を得られるか考える方に頭を使いましょう。

PS： malloc を使ってメモリを確保するときは、ファイルポインタを使うときと同様、mallocの戻り値がNULLになっていないかどうか確認しましょう。(NULLならメモリ確保に失敗しています。）

Interest · Answer

> メモリの確保に問題があるということになるのでしょうか？

直接的にはそのとおり、メモリの確保に問題があります。特に、
(1) 文字列の扱い
(2) 配列とポインタ
に関して何か誤解されているようです。

> 都道府県名を二次元配列で取っているのは、都道府県名が「大阪府」などと、CSVファイル上で日本語で記載されているからです。

Windows上で日本語を扱うときは、charではなくて、.NET使ってよいなら string型を使うか、従来通りなら TCHAR 型を使うのが定石だと思います。
「文字コード」という概念をご存知でなければ、Unicode、Shift JIS、EUC-JPなどをキーワードに検索してみてください。

参考：
http://www.usefullcode.net/2006/11/tcharlpctstrlptstr.html

続いて、

> char *place[NUM][15];
> place[NUM][15]=(char*)malloc(sizeof(char)*NUM);

これがもう滅茶苦茶。

そんなことをするより、最初の目的が

> CSVファイル上の4列目に記載されている都道府県名のデータを配列で取り、画面に表示

でしたら、１５０万行も都道府県名を画面上で見るど考えられないので、重複する都道府県名は無視すると仮定して、次のようなプログラムにすれば巨大なメモリを確保する必要もなくなるものと思います。

(1) CSVファイルから１行読み取る。
(2) ４列目から都道府県名を取り出す。
(3) (2)で取り出した取り出した都道府県名が、読み込み済み都道府県名のリストにあるか検索する。
　　すでにある場合、読み捨てる。
　　まだない場合、読み込み済み都道府県名のリストに追加する。
(4) 全ての行を読み終えるまで、(1)～(3)を繰り返す。
　　全ての行を読み終えたら、(5)に進む。
(5) 読み込み済み都道府県名のリストを画面に表示する。

上記の(3)は、最大150万×47回の文字列比較をすると処理時間が膨大になりますから、処理速度を向上するためにはちょっとした工夫が必要です。

以下、独り言。
AccessやSQL ServerみたいなDBMS使えるなら、DBMSに食わせて吐き出させた方がいろいろと応用が利いていいかも。
私ならExcel使って４行目に対してフィルタかければ、ソースコードを１行も書かずに終わり。

sakusaker7 · Answer

> char *place[NUM][15];
> place[NUM][15]=(char*)malloc(sizeof(char)*NUM);

たぶんこの辺でとんでもない勘違いをしているかと。
何をしようとしていますか?

super-dog · Answer

ぱっと見で、NUMが1万の時に1.5GBのメモリを確保
NUMが10万の時に150GBのメモリを確保しているように思えますが。。。

とりあえずNUMが1万のときのメモリ使用量をタスクマネージャで見てみては

大規模データの処理について困っています

こんばんは．

> fclose(fp);

ANo.3 = Interest です。

> メモリの確保に問題があるということになるのでしょうか？

> char *place[NUM][15];

この回答への補足

ぱっと見で、NUMが1万の時に1.5GBのメモリを確保

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング