A 回答 (5件)
- 最新から表示
- 回答順に表示
No.5
- 回答日時:
高速文字列符号化技術(符号化文字集合)と全文検索技術の専門書が出ていますので、じっくり読まれることをお勧めします。
私は、専門書を読んでも数パーセントしか理解できませんでした。数行で解説し、ああそうかと理解できるようなものではありません。
No.4
- 回答日時:
文字はすべて固有の「コード記号」(2進法だと7ビットの「ASCII」コード、8ビットの「ISO/IEC 8859」コード、16ビットの「UTF-16」などのコード)が決まっているので、インプットした文字の各々とビットごとに
AND をとって結果が1
になるものが「一致したビット」になるので、マッチする文字を特定できます。
「ビットごとに AND をとって、結果が「1」かどうか調べていく」
なんて、計算機には簡単に「大量に」処理できます。(通常はそれを「バイト単位」「2バイト単位」「4バイト単位」「8バイト単位」などで処理すると思いますが)
計算機は「千里の道も一歩から」を泥臭くやっているだけです。
No.3
- 回答日時:
文字列検索は計算機科学の分野ではありません。
で。
コンピューター上で文字はコード・・・1文字は一定個数の0と1で表されています。
ですので文字の見た目の形で検索するのではなく文コードの比較で探します。
具体的に最も簡単な検索方法は以下のようなものです。
例:
「あいうえおかきくけこさしすせそたちつてと」という20文字の文字列内に「かきくけこ」が有るかどうかを見る場合
1.「かきくけこ」は5文字ですから「あいうえお・・・」の文字列の先頭5文字と「かきくけこ」を比較します。
2.一致しないので「あいうえお・・・」の文字列の2文字目から5文字と「かきくけこ」を比較します。
3.これも一致しないので「あいうえお・・・」の文字列の文3字目から5文字と「かきくけこ」を比較します。
これを繰り返すと上記の場合は6回目の比較で「かきくけこ」があることがわかります。
検索対象のデータの一つが「あいうえお・・・」という文字列であった場合、この文字列は検索に引っ掛かって検索結果一覧に表示される・・・となるわけです。
検索文字列が「かきくけこ」ではなく「きかくけこ」だと同様の方法で再度の「たちつてと」まで16回比較操作をしても一致するものが無いので「あいうえお・・・」の文字列は検索結果に示されないことになります。
Googleなどの検索ではもっと処理速度が速くなる処理手順がとられています。検索対象になるデータ(←上記の例での「あいうえお・・・」のデータ)の事前準備も含めて。
また指定されたデータ(←上記の例での「かきくけこ」のデータ)と部分的に一致するデータも検索結果に含める仕組みなども組み込んでいますし、指定されたデータに類似するデータを洗い出してそれも含めて検索する方法なども組み込まれています。
参考まで。
No.2
- 回答日時:
計算機科学における検索は、一般的に情報検索と関連性検索の2つの主要なアプローチがあります。
以下にそれぞれの仕組みを説明します。情報検索(Information Retrieval): 情報検索は、ユーザーがキーワードやフレーズを入力して関連するドキュメントや情報を見つけるための手法です。一般的な情報検索エンジンでは、以下のような手順が行われます。
インデックス作成: インデックス作成では、対象となるドキュメントのテキストデータから単語やフレーズを抽出し、それらを索引(インデックス)としてデータベースに格納します。これにより、検索対象のドキュメントに素早くアクセスすることが可能になります。
検索クエリの処理: ユーザーが入力した検索クエリ(キーワードやフレーズ)は、インデックスと照合され、関連するドキュメントが特定されます。検索クエリとドキュメントの照合には、キーワードの一致度や頻度、位置などの情報が利用されます。
結果のランキング: 検索結果は、関連性の高い順にランキングされて表示されます。ランキングの手法には、TF-IDF(Term Frequency-Inverse Document Frequency)やベクトル空間モデル、機械学習などが用いられます。
関連性検索(Relevance Search): 関連性検索は、ユーザーが入力した情報に関連する情報やデータを自動的に抽出する手法です。典型的な関連性検索の手法には、以下のものがあります。
自然言語処理(NLP): 自然言語処理は、人間の言語をコンピュータが理解し、意味や文脈に基づいた処理を行うための技術です。NLPを用いることで、ユーザーが入力した文や質問を理解し、関連する情報を抽出することが可能になります。
機械学習とランキングアルゴリズム: 機械学習の手法を用いて、ユーザーの入力やクリック履歴、ドキュメントの特徴などを学習し、関連性の高い情報を予測することができます。さらに、ランキングアルゴリズムを使用して、関連性の高い情報を上位に表示することも可能です。
インプットした文字をマッチさせるためには、情報検索や関連性検索の手法を使用します。キーワードやフレーズのマッチング、テキストの解析、関連度の計算などが行われます。具体的な手法やアルゴリズムは、探索対象やアプリケーションによって異なる場合があります。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- 電子書籍 漫画村って画像検索エンジンな訳ですよね?漫画村が違法ならGoogle画像検索も違法じゃないんですか? 4 2023/03/13 17:42
- Access(アクセス) Excel や Access のフォームの中でいわゆるインターネットの検索窓のようなものを構築できま 9 2022/05/21 12:39
- Excel(エクセル) PHPプログラムをエクセルに張り付けると検索ボックスがでてくる! 3 2022/05/08 07:10
- SEO SEOの検索順位について 例えばあるキーワードで検索順位が6位だとしたら、そのキーワードに関連する良 1 2022/06/30 21:51
- Visual Basic(VBA) VBA初心者です 検索した数字の行に色をつける 5 2023/02/13 14:22
- Visual Basic(VBA) WordのVBAについて 5 2023/01/11 14:38
- Android(アンドロイド) AndroidスマホSO-53Cを使ってます Gboardを使いたいんですが設定の仕方が解りません 3 2023/06/21 21:32
- その他(恋愛相談) 旦那の検索履歴 旦那がAVをよく検索しているので見てみたら私がいない時間帯で家にいる時に検索してるの 5 2022/11/14 14:27
- Android(アンドロイド) Pixelのレコーダーで文字起こしした英文を検索する方法 4 2022/10/21 07:45
- スーパー・コンビニ テレビで見た大阪の格安店を探しています 1 2023/05/27 21:26
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
TextFieldParserの固定長桁数を...
-
CString型 全角半角を意識せず...
-
VB6のテキストボックスに入力し...
-
EXCELのVBAでLenB関数について
-
StrConvでUnicodeに変換出来な...
-
ファイル名の一部削除について
-
機種依存文字と特殊文字について
-
vb2008 MIDB関数
-
VB6.0 文字列のファイル書...
-
文字列から、null値を除去する方法
-
一番右のスペース以降の文字列...
-
VBからID3タグをいじる方法
-
バイナリデータの取り方
-
urlencodeがうまくいかない
-
HEX
-
VBA 変数名に変数を使用したい。
-
VBとアクセスでSQL文に変...
-
XMLでデータとして画像を指定す...
-
C#でbyte配列から画像を表示さ...
-
Accessのフィールド名に半角括...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
CString型 全角半角を意識せず...
-
EXCELのVBAでLenB関数について
-
ファイル名の一部削除について
-
文字列から、null値を除去する方法
-
TextFieldParserの固定長桁数を...
-
StrConvでUnicodeに変換出来な...
-
一番右のスペース以降の文字列...
-
【Excel VBA】セル内テキストの...
-
VBScriptで半角カナと半角英数...
-
アクセス ステータスバーの文...
-
「シフトJIS X 0213」形式の文...
-
WSTRINGとは?
-
エクセルで13,410円を数値の134...
-
VBからID3タグをいじる方法
-
VB6のテキストボックスに入力し...
-
指定バイト目を取り出すにはど...
-
HEX
-
C言語とWin32APIで全角かなの...
-
vb2008 MIDB関数
-
ASC関数
おすすめ情報