巨大なテキストファイル（可変長）を効率よく読込む方法は？

Question

Borland C++ Builder 5 を使っています。
30万件以上のレコードが格納されたCSVファイルを読込むプログラムを作っています。
1件当りのレコード長は可変です。（MAX値は余裕を見て200バイトくらい。）
1件ごと決められた処理をする必要がありますので、次のようなソースを書きました。

   while(fgets(buf,200,fp31) != NULL){
        //CSVの分解とデータ処理
    }

しかし、さすがに30万件は時間がかかります。
まとめてドッカンと読込む方法もあろうかと思うのですが、1件ごと処理をするためにはどうしたら良いか分かっていません。
何かうまい方法はないものでしょうか？
ご指導いただければ幸いです。

jacta · Accepted Answer

CSVはまともに処理しようと思うと、fgets等を使って行単位で読み込むべきではありません。
というのは、フィールド内に改行（CRLF）が含まれるケースがあるからです。この場合は二重引用符でエスケープされます。
ちなみに、CSVの仕様（RFC4180）に合致していることを期待してよいのであれば、改行は必ずCRLFですし、ASCII以外の文字が含まれることも想定する必要はありません。

標準ライブラリのストリームは、（少なくともBorland C++ Compilerに限れば）最も効率がよいであろうサイズでバッファリングされているはずですので、そこを調整しても大した影響は出ないでしょう。
それより、パーサーを高速化するほうが得策かと思います。

参考URL：http://www.ietf.org/rfc/rfc4180.txt

titokani · Answer

＞まとめてドッカンと読込む方法もあろうかと思うのですが
どこに時間がかかっているのか調べるのが先でしょう。
ファイル読み込みなのか、CSVの分解とデータ処理なのか。

＃５さんもおっしゃっていますが、ストリーム入力はもともとバッファリングが行われていますので、まとめて読んだとしても、特に効果はない可能性が高いです。

dumm · Answer

fopenのmodeに"S"とか_openのoflagに_O_SEQUENTIALを付けて先読みに期待させる

S117 · Answer

setvbuf(fp, NULL, _IOFBF, 1000000);

とりあえずこれをfopen直後に入れて、パフォーマンスの変化を確認してください。詳細はsetvbufで検索するなり、手元の資料なりで調べてみてください。

PROMETHEUS · Answer

レコードサイズが今度余り増えないようなら一気に読み込んでしまっても
いいのですが、そうでないのであれば、１ＭＢ～数ＭＢくらいのバッファに
一度途中まで読み込み、１文字ずつ解析をします。

　１回の読み込みではまだファイルにデータが残っていることが多く、
その場合メモリにある最後の行のレコードも途中である可能性もあるので
そこの繋ぎ部分は注意して作る必要がありますが、この方法なら
それほどファイル読み込みも負荷にはならない可能性が高いですし、
メモリ的に大丈夫でしょう。


　で、１行毎の解析ですが、まず分割という処理の必要性が疑問です。
　頭から解析し、１つ１つの","で区切られた文字を見て、改行があればそこで１レコード終了になります。
　なので、明示的に分割して何かするという処理は要らないです。

＞この場合の改行コードは16進表記で「0d0a」ですよね
　0x0aだけかもしれませんし、0x0dだけかもしれません。
　0x0d/0x0aと連続で来ることを期待して作るとバグを生むかもしれません。

＞前回の出現位置から今回の出現位置までをbufにCOPYする。
　ファイルからメモリに読み込んだ段階でそこにテキストがあるので
これは要りません。（ASCII->UNICODE変換など変換があるなら別ですが）

phoenix343 · Answer

30万件ですかー
単純に200×30万=57MB弱
結構大きいね

単純に考えるなら一行ずつ読み込むのではなく
いったんファイルの内容全部をメモリに読み込む方法が考えられます。
その後、改行コードで分割して、一行ずつ解析する処理になるかと。

※ファイルにアクセスするのって結構時間がかかるんです。なるべく少なく。。

巨大なテキストファイル（可変長）を効率よく読込む方法は？

CSVはまともに処理しようと思うと、fgets等を使って行単位で読み込むべきではありません。

＞まとめてドッカンと読込む方法もあろうかと思うのですが

fopenのmodeに"S"とか_openのoflagに_O_SEQUENTIALを付けて先読みに期待させる

setvbuf(fp, NULL, _IOFBF, 1000000);

レコードサイズが今度余り増えないようなら一気に読み込んでしまっても

30万件ですかー

似たような質問が見つかりました

このQ&Aを見た人はこんなQ&Aも見ています

関連するカテゴリからQ&Aを探す

このQ&Aを見た人がよく見るQ&A

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

　レコードサイズが今度余り増えないようなら一気に読み込んでしまっても