検索アルゴリズム

Question

今、高速な検索アルゴリズムを探しています。
　下記の条件のときに使えるアルゴリズムが何かないか、ご存知の方おしえてください。

　　１．データの順番は基本的にバラバラ
　　２．トゥリーやインデックスは検索の直前に作る

　よろしくお願いします。

alfeim · Accepted Answer

>Perl からＳＱＬが呼べないかなぁと
>PasageSQLやMySQLだと一般プロバイダのＣＧＩ環境では使えないから

SQL自体はそれぞれのモジュールがあると思います
(少なくともPostgresはPg.pmがあります)
一般プロバイダでは使えませんが、海外などのFreeWebサービスではMySQLやPostgresを遣わせてくれる所もありますよ
また、DataBaseは通常Networkアクセスできるように作ってあるので設定まで出来る所であれば、webサーバ(Perlプログラムが動いてる所ですね)とDBサーバは別々に出来ます
またODBCドライバモジュールがあれば大体のDetabaseは使えるはずです(多分探せばODBC用perl moduleがあると思います・・・自信無いですが(^^;)

SQL Serverの内部解説書ですが、私が読んだのは
出版社: リックテレコム 
書名: リファレンス WindowsNTによるSQL Server6.5チューニングガイド
著者: 飛鳥 亮
定価: 2800円(税別)
ISBN: 4-89797-211-6
です
ちょっと古い本ですが、まだ手に入るようです＞参考URLを参照してください

>オープンソースのデータベースソフトがあるのなら、それもご紹介いただきたいんですが……(^_^;
オープンソースのデータベースソフトはPostgreSQLやMySQLがそうですよ(^^;
PostgreSQLは
http://www.sra.co.jp/people/t-ishii/PostgreSQL/
からダウンロードできるはずです

MySQLはこちら
http://www.softagency.co.jp/mysql/

参考URL：http://www.amazon.co.jp/exec/obidos/ASIN/4897972116/qid%3D983533864/249-2995887-0212321

alfeim · Answer

なんかDatabaseのようなものを作ろうとしてらっしゃるみたいですね・・・
であれば一番手っ取り早いのはDatabaseに突っ込んでSQLでQueryするってのが一番早いですが(笑)

結局自分で実装するにしてもDBと同じ手法を使う事になるでしょう
データを一意に識別出来るindexを付けてやり
それぞれの項目毎にB木やバランスツリー、ハッシュなどで一意識別できるindexとキーを関連付けてやります
それで検索条件毎にそれぞれの項目毎のツリーなどからindexを限定してやって、最後にindexから実体を出力してやる、という方法が使えると思います

また、検索条件の最適化を行うと言う事も(条件によっては)出来るでしょう

・・・以上の事は実際のdatabaseがやってる事です(^^;
MS SQL Serverなどの内部動作解説本などがあるのでそういう物を読むか、OpenSourceなDatabaseのSourceCodeを調べるのもいいかもしれません

punchan_jp · Answer

条件としては一般にどんなものが与えられるんでしょう？
項目A =~ /regexp/ && !(項目B =~ /regexp/ && 項目C =~ /regexp/)
ぐらい一般的なんでしょうか？

あと、検索の回数に関してですが、アプリケーションから1回呼ば
れるごとに1回検索するだけなんですね？

で、2回目の検索というのがあったとしたとき、CSVのデータに変更
がある可能性もあって、そのことを知るすべがないのでしょうか？

そうだとすると、前から順に探すくらいしか思いつきません。

toysmith · Answer

#3を書いた後で#1への補足を読んだのですが、線形文字列検索ではダメですか？

CSVファイル内の任意の文字列を高速検索するならBM法で何とかなるかでしょう。
アルゴリズム辞典で確認してください。

toysmith · Answer

順次検索や大小比較が必要無いならハッシュで行けますね。
ハッシュ表を使わずにデータをほおりこめばインデックスもツリーも不要です（容量的には不利ですが）。

検索の“直前”であろうと“事前”であろうと「ツリーやインデックスを作る」のならB木で良いような気もしますが…。

punchan_jp · Answer

1回しか探索しないのだとすると、木を作る間に探せてしまうでしょ
うから、何度も探索するのを木で高速化したいということでよろし
いでしょうか？

そういう目的なら2分探索木かB木ということになると思います。前
者はバランスが悪い木になってしまうと、リニアサーチと変わらな
くなります。順序がバラバラといっても、もし部分的にソートされ
てたりする可能性があるなら、後者を使うべきでしょうね。

どちらも、
「C言語による最新アルゴリズム事典」奥村晴彦・技術評論社
で解説されています。

alfeim · Answer

データの内容によって色々変わってくると思うのですが・・・
キーの重複の有無、
キーのデータとの完全一致か、一部との一致か
などありますので、もう少し具体的な補足をお願いします

検索アルゴリズム

>Perl からＳＱＬが呼べないかなぁと

なんかDatabaseのようなものを作ろうとしてらっしゃるみたいですね・・・

条件としては一般にどんなものが与えられるんでしょう？

#3を書いた後で#1への補足を読んだのですが、線形文字列検索ではダメですか？

順次検索や大小比較が必要無いならハッシュで行けますね。

この回答への補足

1回しか探索しないのだとすると、木を作る間に探せてしまうでしょ

この回答への補足

データの内容によって色々変わってくると思うのですが・・・

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング