データベース側で100万とか1000万のデータを作成できますか

Question

社員ＩＤが１から１０まであって、その他のフィールドは名前、住所、電話番号など書いてあるとします。10人分のデータの中から名前が近藤さんを探しなさいといった時、すぐに検索結果は返ってくると思います。

仮に社員が100万人いて検索結果を得ようとしたらかなりの時間がかかると思います。数10人なら自力でデータを用意できるのですが、100万とかいう数になると自力では無理があります。そこでデータベース側でランダムにデータをつくるということは可能なんでしょうか？もしくはプログラムの方でなんらかの制御をしてデータを100万件データベースにいれていくというような処理しかないんでしょうか？

やりたいことは検索時間が10件と100万件だとどのくらい違うだろうということをやりたいと思っております。よろしくお願いします！！

yambejp · Accepted Answer

たとえばこんなやり方・・・

CREATE TABLE `a` (`id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,`data` VARCHAR( 20 ) NOT NULL);
CREATE TABLE `b` (`id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,`data` VARCHAR( 20 ) NOT NULL);

idとdataというフィールドをもった二つのテーブルを作ります。

INSERT INTO `a` SET `id`=NULL;

データを一つ作ります。

INSERT INTO `b` SELECT NULL,'' FROM `a`;
INSERT INTO `a` SELECT NULL,'' FROM `b`;

という２行のSQLを処理を20回繰り返します。
これで100万件のデータができます。
（テーブルbはもういらないので消してよいです）

さらに
UPDATE `a` SET `data`=MD5(RAND());

とすればdataにランダムな文字列がセットされます

bilda · Answer

わたしは、約１５万人のデータベース（２６項目）を自作してします。
　エクセル約５０ＭＢを４シート×４文書に分けているので、１００万
人なら約３３０ＭＢ、２５文書あれば収容できます。
　
＞検索時間が10件と100万件だとどのくらい違う＜
　検索のための準備作業は変らず、読込み時間が違うだけです。
　ＵＳＢにまとめて一括検索すれば、数分で抽出できるでしょう。
　
　さらに、あらかじめソートされていれば、全データ必要ありません。
　エクセルよりアクセスの方が大量処理できるのですが、部分的な抽出
については、むしろエクセルのほうが扱いやすいのではないでしょうか。

chukenkenkou · Answer

#1です。
誤字がありました。

「ユーザ側で利用した」
↓
「ユーザ側で用意した」

ついでに、B-TREEインデクスについて、簡単に触れておきます。RDBMSにより、多少の違いがありますが、考え方は似たようなものです。

主なRDBMSでは、行やインデクスの情報を、ページといった単位で管理しています。ページはI/Oの最小単位なので、ブロックと考えていいでしょう。
この１ページで、何件のインデクスキー値を管理できるかは、

管理可能なキー数＝（ページ長－ページの制御情報）／（キー長＋行の格納アドレス）

といった計算式になります。
ページ長＝4096バイト、ページ内の制御情報＝96バイト、キー長＝10バイト、行の格納アドレス＝6バイトとすると、250個のキー値が管理可能です。
インデクスの分割を配慮して、125個のキー／ページとすると、
100万件を管理する最下位ページ数は、1000000/125=8000ページ。
2段目は、8000/125=16ページ、
最上位が1ページ
で、インデクスは3段になります。

100万件の中から=条件で1件の検索なら、データ部のI/Oが1回、インデクスのI/Oが3回になります。

chukenkenkou · Answer

RDBMSは、何でしょうか？

ユーザ側で利用した多量データを格納する場合、RDBMS側で用意しているローダ（通常のINSERTの処理でなく、ログを吐き出さなかったり、インデクス更新を後で一括で行ったりすることで、性能向上させている）を使う場合が多いです。

テスト用に100万件程度のデータを作るなら、何らかのプログラミング言語でツールを作ってもいいし、ストアドプロシジャを実装しているRDBMSなら、ストアドプロシジャで容易に作れます。

>検索時間が10件と100万件だとどのくらい違うだろうということをやりたい

数万件といった母体データから数件を検索するなら、一般的にインデクスを付けます。B-TREE構造が一般的に知られており、母体件数に対して、対数の関係になるので、データ量が増えても、極端に性能劣化することはありません。

http://biz.rivus.jp/words/btree_index.html

データベース側で100万とか1000万のデータを作成できますか

たとえばこんなやり方・・・

#1です。

RDBMSは、何でしょうか？

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング