ある団体の保有しているデータの集計・分析作業を行うことになりました.以前同様の業務をしたことがあったのですが,そのときはデータを保有していた先方のシステムをお借りできたので何も考えずに集計・分析作業に集中できました.しかし,今回は先方にそのような環境がないとのことで,環境も構築する必要があります.
以下のような状況の場合,安価に集計・分析するためにはどのようなデータベースのソフトを選択するのが良いでしょうか?
・集計・分析の対象となるデータは月ごとに多くて5億件(これを四半期分なので三ヶ月分)
・1件あたりのデータに含まれる情報はせいぜい100バイト
・集計方法は単純な合計・平均がメインですが,ミクロな分析も必要なので,SQLなどでの制御も考えています.
・集計・分析時にデータの更新などは発生せず,利用者(分析者)は同時に複数アクセスすることはありません.
・データベースを動かす環境の候補は Windows か Linux (i386) のどちらかです.
このような場合,どういったデータベースソフトを選択するのが良いでしょうか.よろしくお願いします.
A 回答 (3件)
- 最新から表示
- 回答順に表示
No.3
- 回答日時:
#2です。
ご呈示いただいた条件があまりにも特殊(に思える)もので、責任ある回答はできませんが(^^;特徴を整理すると
1.件数が莫大である
2.元データが複数の形式
3.更新や同時複数アクセスはない
以上を考えるとOracleやSQL Serverなどの高価なシステムは必要ないようです。高価なシステム原価はスピード交情よりもデータ整合性や安全性に大きく関わっていると考えるためです。
従いMySQLあるいはPostgreSQLなどの中で、質問者が使い慣れたDBとフロントエンドを使用されればよいのでは。
ご回答をどうもありがとうございます.
Oracle等を導入するのはコスト的に少々厳しそうな具合ですので,ご回答の中にもありました MySQL を軸に検討しようと思っております.
No.2
- 回答日時:
>集計・分析の対象となるデータは月ごとに多くて5億件(これを四半期分なので三ヶ月分)
これだけ大量のデータをまさかテキスト形式などでもっているわけじゃないですよね。
するとそのデータベースは?
この回答への補足
質問を投稿してからデータを眺めたところ,データの形式がまちまちであることが判明しました(といっても四種類くらいですが,それはそれで量が多いので手間がかかりそうだということに...).といいますのも,実はデータはいろいろな場所で収集されていて,それらを夜中~明け方にバッチ処理でいくつかの拠点へ転送する仕組みになってしました.いくつかの拠点ではデータベースで管理しているようです.
補足日時:2006/06/21 12:49早速のご回答をどうもありがとうございます.
拠点で利用しているデータベースを使うという案もありましたが,負荷の点で使わない(使えない)方向になったようです(実は下請なので詳しい事情が良くわかっていません).
データ形式については今のところサンプルデータしか手渡されていませんが,データ収集箇所ごとの日ごとのデータが CSV 形式でたくさんあるという感じでした.本番までにどういったデータが来るのかも含めて確認してもらっています.
No.1
- 回答日時:
Oracleじゃないですかねぇ・・・
データの容量からみてもそれなりのソリューションで
運営しないと保守もままならないでしょう。
安価ってどのくらいが安価なのかわかりませんが、
システム会社にまるなげで委託して、1億円くらい
で作ってもらう感覚でしょうか。
信頼性とかある程度犠牲にしてよいなら
MySQLで組んで、PC込みで40~50万ってとこすかね。
仕様によってそのくらいふり幅が大きな案件だと
思います
早速のご回答をどうもありがとうございます.
明確な予算はかけませんが,64bitマシンなどを使う予定なのでいろいろとコストがかかってしまいそうです.
Oracle も含めて検討したいと思います.
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 統計学 一変量分析(度数分布表)は、結果をもとに特に検定せずに断定してもよいですか? 7 2022/11/24 23:20
- 統計学 Rを用いた「繰り返しがある直交表実験計画法」の分析方法 8 2023/08/01 17:58
- Excel(エクセル) エクセルデータの集計、一つのセルに複数のデータがある場合 7 2022/12/28 20:19
- その他(学校・勉強) 宿題の所で答えが合ってるか教えて欲しいです!情報Iです! データの分析・利用を行う際の流れについて、 2 2022/07/24 08:17
- その他(プログラミング・Web制作) 大学のゼミのレポートがムカつきます。 R言語というデータ分析に特化したプログラム言語を用いた授業の課 1 2023/06/29 00:50
- 教育・学術・研究 仕事の方向性を変えたい。経営分析→数値解析 1 2023/06/18 16:51
- 統計学 t検定について教えてください 2 2023/02/23 16:35
- 宇宙科学・天文学・天気 AIが答えた方程式 1 2023/02/20 00:12
- 統計学 どの統計を使えばいいのか教えてください(EZ-Rを使用) 5 2022/10/11 13:28
- Excel(エクセル) 非表示にしたい行をグループ化して折り畳み 4 2022/09/17 20:17
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
データベースファイル(.db)を開...
-
警察はスマホに保存した動画や...
-
更新クエリをリンクデータベー...
-
コンピュータ用語、データベー...
-
Accessを開きなおすとテキスト...
-
accessでの請求管理について
-
QRコードとバーコードについて
-
データベースソフトの「TCARD f...
-
c言語の問題です。これを踏まえ...
-
Accessフォームからパラメータ...
-
マクロの別シートのデータ振り...
-
リスト形式の表とデータベース...
-
Q&Aフォームを作成したいのです...
-
「1004:アプリケーション定義...
-
ACCESSのSQLで、NULLかNULLでな...
-
4進数風なバーコードは何ですか?
-
ファイルが壊れて読み取れませ...
-
SQLを使いこなしている人が ETL...
-
データベースソフトのTCARDにつ...
-
汎用カード型のデータベースソ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
データベースファイル(.db)を開...
-
Accessを開きなおすとテキスト...
-
警察はスマホに保存した動画や...
-
ACCESSのSQLで、NULLかNULLでな...
-
エクセルのフィルタ抽出が固まる
-
CSVファイルでテキストの改行の...
-
構文エラー:演算子がありませ...
-
Accessフォームからパラメータ...
-
20万行あるデータを動かしたい
-
Accessのリンクテーブルについて
-
コンピュータ
-
最新の日付とその金額をクエリ...
-
データベースとウェブ(WWW)の共...
-
更新クエリをリンクデータベー...
-
「1004:アプリケーション定義...
-
リスト形式の表とデータベース...
-
android版のMs accessはありま...
-
Excelフィルタ抽出で「検索して...
-
縦書きテキストボックスの表示"...
-
Notion@リレーション値の取得...
おすすめ情報