
社員IDが1から10まであって、その他のフィールドは名前、住所、電話番号など書いてあるとします。10人分のデータの中から名前が近藤さんを探しなさいといった時、すぐに検索結果は返ってくると思います。
仮に社員が100万人いて検索結果を得ようとしたらかなりの時間がかかると思います。数10人なら自力でデータを用意できるのですが、100万とかいう数になると自力では無理があります。そこでデータベース側でランダムにデータをつくるということは可能なんでしょうか?もしくはプログラムの方でなんらかの制御をしてデータを100万件データベースにいれていくというような処理しかないんでしょうか?
やりたいことは検索時間が10件と100万件だとどのくらい違うだろうということをやりたいと思っております。よろしくお願いします!!
No.4ベストアンサー
- 回答日時:
たとえばこんなやり方・・・
CREATE TABLE `a` (`id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,`data` VARCHAR( 20 ) NOT NULL);
CREATE TABLE `b` (`id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,`data` VARCHAR( 20 ) NOT NULL);
idとdataというフィールドをもった二つのテーブルを作ります。
INSERT INTO `a` SET `id`=NULL;
データを一つ作ります。
INSERT INTO `b` SELECT NULL,'' FROM `a`;
INSERT INTO `a` SELECT NULL,'' FROM `b`;
という2行のSQLを処理を20回繰り返します。
これで100万件のデータができます。
(テーブルbはもういらないので消してよいです)
さらに
UPDATE `a` SET `data`=MD5(RAND());
とすればdataにランダムな文字列がセットされます
No.3
- 回答日時:
わたしは、約15万人のデータベース(26項目)を自作してします。
エクセル約50MBを4シート×4文書に分けているので、100万
人なら約330MB、25文書あれば収容できます。
>検索時間が10件と100万件だとどのくらい違う<
検索のための準備作業は変らず、読込み時間が違うだけです。
USBにまとめて一括検索すれば、数分で抽出できるでしょう。
さらに、あらかじめソートされていれば、全データ必要ありません。
エクセルよりアクセスの方が大量処理できるのですが、部分的な抽出
については、むしろエクセルのほうが扱いやすいのではないでしょうか。
No.2
- 回答日時:
#1です。
誤字がありました。
「ユーザ側で利用した」
↓
「ユーザ側で用意した」
ついでに、B-TREEインデクスについて、簡単に触れておきます。RDBMSにより、多少の違いがありますが、考え方は似たようなものです。
主なRDBMSでは、行やインデクスの情報を、ページといった単位で管理しています。ページはI/Oの最小単位なので、ブロックと考えていいでしょう。
この1ページで、何件のインデクスキー値を管理できるかは、
管理可能なキー数=(ページ長-ページの制御情報)/(キー長+行の格納アドレス)
といった計算式になります。
ページ長=4096バイト、ページ内の制御情報=96バイト、キー長=10バイト、行の格納アドレス=6バイトとすると、250個のキー値が管理可能です。
インデクスの分割を配慮して、125個のキー/ページとすると、
100万件を管理する最下位ページ数は、1000000/125=8000ページ。
2段目は、8000/125=16ページ、
最上位が1ページ
で、インデクスは3段になります。
100万件の中から=条件で1件の検索なら、データ部のI/Oが1回、インデクスのI/Oが3回になります。
No.1
- 回答日時:
RDBMSは、何でしょうか?
ユーザ側で利用した多量データを格納する場合、RDBMS側で用意しているローダ(通常のINSERTの処理でなく、ログを吐き出さなかったり、インデクス更新を後で一括で行ったりすることで、性能向上させている)を使う場合が多いです。
テスト用に100万件程度のデータを作るなら、何らかのプログラミング言語でツールを作ってもいいし、ストアドプロシジャを実装しているRDBMSなら、ストアドプロシジャで容易に作れます。
>検索時間が10件と100万件だとどのくらい違うだろうということをやりたい
数万件といった母体データから数件を検索するなら、一般的にインデクスを付けます。B-TREE構造が一般的に知られており、母体件数に対して、対数の関係になるので、データ量が増えても、極端に性能劣化することはありません。
http://biz.rivus.jp/words/btree_index.html
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- Excel(エクセル) PHPプログラムをエクセルに張り付けると検索ボックスがでてくる! 3 2022/05/08 07:10
- Ruby pandasでsqlite3にテーブル作成・追加・読み出しでindexの取り扱い方教えてください 5 2023/03/08 09:57
- Visual Basic(VBA) 【ExcelVBA】Powerクエリーでいうピボット解除と同じ処理をVBAで 4 2022/07/06 17:09
- Access(アクセス) Accessで作ったデータベースをwebで活用したい 2 2023/06/03 08:49
- 会社・職場 Excel、Googleスプレッドシートなどへのデータ入力 2 2023/07/06 05:59
- Excel(エクセル) 【エクセル】元データからの引用 5 2022/04/18 10:22
- その他(データベース) 業務用のデータベースサーバーの選び方について 4 2022/11/22 10:22
- Excel(エクセル) エクセルで沢山のレコードの最後に追記するには? 7 2023/04/10 13:27
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
- その他(Microsoft Office) エクセルソートと抽出について 3 2022/10/22 22:09
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
データベース側で100万とか1000...
-
大規模データ検索結果の検証方法
-
SQL文で、重複データの上書きは...
-
SQL-Server間でデータのコピー...
-
ASPでwebショップをプログラムする
-
MS-Accessのエクスポートで異常...
-
ACCESSのデータをWebブラウザで...
-
DBIによるまとめて実行
-
会社の諸事情により全システム...
-
postgresql についてです
-
復元に異常に時間がかかる
-
【DB】同じトランザクション内...
-
期限切れのバックアップの削除
-
復旧中のデータベースについて
-
エクセルのフィルタ抽出が固まる
-
SSL暗号通信
-
SQLServerバックアップ戻せない
-
接続されてるユーザーを切断す...
-
ACCESSのコマンドボタンを押し...
-
mdfファイルの残骸について
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
MS-Accessのエクスポートで異常...
-
ACCESSのデータをWebブラウザで...
-
Sqliteで使えない文字。
-
SQL文で、重複データの上書きは...
-
accessの上限容量2Gでは容量が...
-
ACOSのRDBについて教え...
-
1回目の実行に3分、2回目の実行...
-
ACCESS2010 Excelエクスポート ...
-
oracleデータベースの更新履歴
-
会社の諸事情により全システム...
-
datasetが破棄されるタイミング...
-
データベースからのインポート...
-
暗号化したDBのデータ移行
-
SQLServerのDBのうちテーブルを...
-
ファイルメーカーで外部csvファ...
-
MSDEでデータベースに接続、イ...
-
データベースを使用して、SQLの...
-
SQL ServerにExcelをリンクさせ...
-
データのロードの仕方
-
SQLite3にて重みづけを行った抽...
おすすめ情報