エクセルVBA 2千万行のCSVファイルを開きたい

解決済

質問者：OverTheGalaxy
質問日時：2015/10/07 19:06
回答数：6件

上から順に読み込み、順次処理していき最終的には全部処理します。CSVファイルは読むだけです。

やり方はいくつか考えられます。
1
100万行ずつシートに読み込み、終わったら次を読み込む。CSVファイルは開きっぱなし。

2
100万行ずつのエクセルファイルに分割し、順次開いて処理。ファイル開閉に時間がかかる

3
2千万行の巨大な配列に代入し、順次処理。
CSVファイルは閉じることが出来る。

3がいいように思えますが、どうでしょうか？使用メモリは1と同じですか？

１行ずつ読み込んで処理後にもう一行、は考えてません。1シート分のデータが揃って初めて処理が可能だからです。

ソフトはエクセルVBAのみ考えてます。Perl, Rubyなど別プログラムは来世で考えます。
「データベースに登録」と言われてもピンと来ないので、SQL等はたぶん無理です。

No.1の回答に寄せられた補足コメントです。補足日時：2015/10/07 20:57
通報する
現状で100万行の読み込みは可能です。配列に読み込むにしても2000万行は無理っぽいけど100万行は大丈夫だと思います。

懸念点は、最初から最後まで巨大なCSVファイルを開いたまま処理することです。特に問題ないなら、案1で行きます。

No.4の回答に寄せられた補足コメントです。補足日時：2015/10/08 19:45
通報する

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (6件)

ベストアンサー優先
最新から表示
回答順に表示

No.5ベストアンサー

回答者： RandenSai
回答日時：2015/10/09 12:27

> 懸念点は、最初から最後まで巨大なCSVファイルを開いたまま処理することです。

それに関しては問題ないです。VBAのOpenでファイルを開いた場合、実は一切読んでいません。今何行目を読んでいるかを示すカウンタを用意するだけです。またLine Inputで読み込む場合も、今操作している一行しか相手にしません。

だからこそ、実装している物理メモリ量をはるかに超えるサイズのファイルを扱っていても、仮想メモリのお世話にならずに済むわけです。

なので懸念材料はそこではなく、分割処理することによってデータ同士の断絶が起きると言うか、連続性がなくなることでしょうか。最初の100万行の固まりと、次の100万個の固まりには全くつながりがないことになるので。

- 1
- 件

通報する

この回答へのお礼

ありがとうございます。
メモリに関しては問題ないということですね？
データの連続性は特に問題ありません。末尾の調整くらいはしますが。

通報する

お礼日時：2015/10/09 20:27

No.6

回答者： tatsu99
回答日時：2015/10/09 22:40

#2で回答したものです。

案1を採用したい旨の補足がありましたが、
これは、１sheetで100万行分を格納するので、
２０sheet使用すると理解しました。
2千万行のデータを1sheetに１００万行ずつ格納していくと、
私の環境では、８シートぶんを作成したあたりで、メモリ不足となり、処理が続行できなくなりました。
私の環境は、windows7(64Bit) メモリ１２Gバイト excel2007です。
（＃２でメモリ４Gバイトと書きましたが、誤りでした。１２Gバイトが正しいです）

案１を採用される場合、メモリ不足が発生するかもしれませんので、
簡単なプロトタイプを作成し、2千万行が２０sheetに格納できることを
まず確認することをお勧めいたします。

- 0
- 件

通報する

この回答へのお礼

再度ありがとうございます。
100万行を１シートに格納しデータ処理を終えたら、そのデータはクリアし次の100万行を読み込みます。
なのでシートは１枚です。速度アップのため配列に入れて使用すると思うので、実際は未使用です。

通報する

お礼日時：2015/10/09 23:51

No.4

回答者： RandenSai
回答日時：2015/10/08 10:03

まだExcel95の当時に、100万行のログデータを解析しろと言う案件があって、その時はExcelは使わずにgawkで順次処理したっけか…Excelの限界が65535行だったのと、割合順次処理しやすいデータ構造だったためにそうしたんですが。

ところで今回のデータは、最低何行あれば意味をなすんですか？どうしても最低100万行かそれ以上に必要なのか、あるいは1000行くらいあれば良いのか。それによって方針は変わってきませんか？後者ならば、非常識な大きさの配列なりメモリは必要ないから、かなり楽になります。またデータフォーマットにもよるでしょう。カラム数や各カラムに何バイト用意すればよいのか、それもあります。1レコードのデータサイズが大きいと、100万行なんて処理したくてもできないかも知れないので。

- 0
- 件

通報する

No.3

回答者：銀鱗
回答日時：2015/10/08 01:22

No.2の回答では

３はメモリ不足で読み込めないという悲しい現実の前に挫折することを危惧しているのではないだろうか。
自分もそれを考慮に入れて１を勧める。

自分が質問のケースに遭遇したら2度手間にはなるが、エディタでCSVファイルを100万行ずつ分割するかな。
その上でシートに分けるかブックに分けるかを検討する。

・・・しかし、データの量に応じて列を少なくして行を増やすような仕様にならないものか。
16384列もいらないぞ。個人的には500～800列もあれば十分なケースばかりだ。

- 0
- 件

通報する

この回答へのお礼

お礼が大変遅くなりました。
後日談ですが、１を採用しましたがメモリ不足（詳細原因不明）で途中で止まります。Lineなら１行しか見ないのでメモリ不足とは無縁と思ってやって来ましたが、8シート目くらいで力尽きました。で、今は回答頂いたファイル分割しようか思案してるところです。

通報する

お礼日時：2016/02/13 20:53

No.2

回答者： tatsu99
回答日時：2015/10/07 22:17

3がいいと思います。

１を行うと、シートのぶん、余計にメモリを使用します。
但し、３を行うには、十分なメモリを搭載したマシンで行うことが前提になるかと思います。
参考までに、1行約１００バイトで２千万行のデータを作成すると約２Gバイトのファイルになります。
このファイルを全て読み込み、内部メモリの配列に格納すると、
私のマシンはWindows7（内部メモリ４Gバイト）ですが、全て読み込むことが
出来ませんでした。
excel2003で実行時、約８００万行で停止してしまいました。

老婆心ながら、あなたが３で行われる場合、まず、簡単なプログラム（2千万行を内部メモリに格納するだけのプログラム）を作成し、最後まで読み込むことが出来るかどうかを試されることをお勧めします。

- 0
- 件

通報する

この回答へのお礼

ありがとうございます。
３がダメだった場合（ダメな可能性が大きい）、１ですか？一旦閉じないで開きっぱなしにする理由は、一旦閉じて次回開くとまた１行目から読み込む必要があるからです（そのように聞いてます）。100万行を２０回、しかも後半は読込開始行を探す時間が多くなります。

２は分割ファイルを作る所要時間がきになります。
大容量ファイルの読み込みは他にもやってる人は多いと思いますが、皆どうやってるんだろう？
tatsu99さんは結局どんな方法にしたのでしょうか？

通報する

お礼日時：2015/10/08 00:14