pdf の検索に namazu などを使うメリット

Question

再質問することにします。

Linux(debian wheezy) で
あるディレクトリにある
pdf ファイル群の中身のテキストを検索したいのですが、
find /directory_path |xargs grep -i keyword
とやって検索する場合に比べて
namazu groonga
を使うメリットってどのくらいあるでしょうか？
（他にもやり方はあるのでしょうか？）

namazu を文字化けせず使うためには
$ sudo update-locale LANG=ja_JP.EUC-JP LANGUAGE="ja_JP:ja"
を実行しておいて
ロケールを EUC-JP に変更しなければいけないので
この辺りが原因で後で何か面倒なことが発生しないかも少し気になります。

どのやり方でもまず
pdf を txt化しておかねばなりません。
ファイル名からやっかいな空白を削除するためには
どこかのサイトに書いてあったことを使い、
pdftotext の処理には以前の質問で教えていただいたことを応用
（応用というかほとんどそのままですが）して
$ find . -name "* *" | rename 's/ /_/g'
$ find ./ -name '*.pdf' -print | while read line;do  ${line} ${line%.pdf}.txt;done
とやればいいと思います。

superside0 · Accepted Answer

・grep対象のテキストファイルの文字コードが統一されていて（異なるのはnkf等で事前に統一）
・grepで指定する文字列の文字コードもそれと同じで
・ファイル数やファイルサイズも少なくて
・PDFが更新されるたびにテキスト化する手間が惜しくなく（ないしは、アップロード時に変換を自動化しておくか）
・検索結果の一覧やそのリンクのHTML化するのも自力で行う（ないしは、HTML化は不要）
ってことならgrepでも　いいんじゃないですかね。

逆にいうと、同一ファイルに対して何度も検索をしていて、
その対象となるデータ量が多いとか、今後増える予定ってことなら、
grep検索では実用的な応答速度にならないかもしれませんので、
その場合は、全文検索エンジンを使うべきかと。

なお、mknmzで　PDFファイルが
Unable to convert pdf file (maybe copying protection)
のエラーになる件は、　実際にPDFにパスワードロックがかかっているのでなく
デフォルトロケールをEUC-JPにすると解決するということなら、
xpfdの設定ファイル(xpdfrc)のunicodeMapで指定しているファイルがないってことかも。
（パス間違いとかで・・）

superside0 · Answer

> namazu のインデックス作成は
>一つのファイルのみを書き換えた時でも
>全ファイルをスキャンしなおす、
>という面倒なやり方になっているのも少し気になります。

そんなことはありません。
インデックス済のファイルは、更新されない限りは再度インデックス化されることはありません。

もしかして、元ファイルが更新されていなくても、　テンポラリファイルを毎回作り直して
そのテンポラリファイルをインデックス化しているのではないですか？
その場合、テンポラリファイルを生成するシェル側として、
元ファイルが更新したものだけ、テンポラリファイルを作り直すようにすれば解決する問題です。
（findの -newer など使って）

> （HTML化するとどういうメリットがあるかが分からないのですが・・・）

ヒットしたファイルの一覧や　ヒットした前後の文章や　そのファイルへのリンクが
HTMLで生成してあれば視認性が高まりますし、該当ファイルの閲覧のナビゲーションが簡単にできます。
もちろん、検索結果をどう使うのかの　用途次第ですが。

oshiete_poo_V1 · Answer

質問に対する回答はNo1のおっしゃっている通りと思いますが、
これではNamazuがあまりにも不憫な気がします。
> Namazu を文字化けせず使うためには　$ sudo update-locale … 
　　sudoしなければならないような特権は必要ありません
　　適切に運用すれば文字化けしません

> どのやり方でもまずpdf を txt化しておかねばなりません。
　　ドキュメントの通りにすればpdfからindexを生成することができます。

> ファイル名からやっかいな空白
 　　スペースがあるファイルもちゃんとNamazuで検索できます。

一方、デメリットの追加：
・Namazuで検索する(インデックスを構築する)のとgrepでは結果が異なる可能性があります。
・groongaの方は運用次第でインデックス構築方法を変更できる。

原因についてはgroongaのマニュアルに（理解できるかどうかはさておき）書いてありますが、ここでは結果が異なる可能性があると言う事実だけ知っておけば十分でしょう。

shitaba · Answer

namazu groonga を使用するメリットは『事前にイン
デックスを作っておけば、検索速度がめっちゃ速い』
ことです。

もし、処理手順を
　1. 検索を開始
　2. pdf からテキストを抽出
　3. 抽出したテキストから検索実行
　4. 結果表示
のようなことを考えているのであれば、namazu
groonga を使うのはデメリットしかありません。
(検索のためにインデックスを作る処理に時間が
 かかるので、逆に遅くなってしまう)

namazu groonga を効率的に使えるのは
　・事前にインデックスを作ることができる
　・事前に作ったインデックスを使いまわして
　　検索するケースが多い
場合です。
検索のたびに pdf が変わる前提のシステムなら使う
メリットは皆無です。

pdf の検索に namazu などを使うメリット

・grep対象のテキストファイルの文字コードが統一されていて（異なるのはnkf等で事前に統一）

> namazu のインデックス作成は

質問に対する回答はNo1のおっしゃっている通りと思いますが、

この回答への補足

namazu groonga を使用するメリットは『事前にイン

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング