Acrobatの提供するJavascriptオブジェクトやAPIを使用して、PDFを対象とした
全文検索ツールを作りたいのですが、書籍等も少なく、なかなか有効な情報に
出会えません。どなたか実際にそのような開発に携わったことがあれば、
その手法に関する情報をご提供頂けないでしょうか?
なお、市販のPDF全文検索ソフトもいろいろあるのですが、ライセンス
フリーなものが今回必要となり、自作を検討しております。
用途はPDFをCD-Rに焼き、そのCD-R内にCD-R内全文検索プログラムを
組み込むというものです。
よろしくお願い致します。
No.1
- 回答日時:
自分でプログラムを作るということでしょうか?
それなら、Adobe社と契約が必要になりますし、契約すればモジュールとマニュアルを供給してもらえますよ。
私の会社はそれで作りました。
早速のご返信ありがとうございます。
Adobe社との契約が必要なのですか。
やはりAdobe社からの情報無しでは難しいのでしょうか?
PDFからテキスト情報を取得するAPIでも分かれば
VBやVCあたりでできそうな気もするのですが・・・
ありがとうございます。検討してみます。
No.2ベストアンサー
- 回答日時:
私は経験も知識も無いものですが、
A.PDFファイルを直接読んで検索する。
B.人間が操作して、下記RTFファイルまたはテキストファイルに抽出して、検索する。の2つが考えられると思います。
お手許にPDFファイルのファイルフォーマットは既にあるのでしょうか。
その後Adobe社にこの形式のファイルを読み検索するアプリを作成する(その後貴社でソフトを販売するのですか?それを明確に伝えて)のに認諾や契約や有償が必要なのか確認されましたか。
(1)AcrobatファイルはRTF形式にテキスト部分のみ落とせるとのことです。
http://www.keiyu.com/doc/pdftxt.htm
http://search.luky.org/linux-users.8/msg00983.html
http://www.pdf-seek.com/jyouhou/index.html
http://pc-training.hp.infoseek.co.jp/pdf.html
http://www.y-adagio.com/public/standards/tr_pdf/ …
(この中に「著作権認諾」のことも載っている。)
相当調べられたふうですが、「PDF」「テキスト」「ファイル形式」「ファイルフォーマット」などでWEB検索してみてください。
(2)この落としたファイルを対象に、自作の検索プログラムを作り、走らせる。
(3)(1)はAcrobatの「操作」ですから、その通り操作でやると
オフラインバッチ処理的になり、1ステップ入ってしまいます。
それで良いのでしょうか。もし操作を自動的にするマクロのようなものが
あればAと近くなり、良いのでしょうが。
(3)バッチ的になって良いなら、(1)を操作でさせて、RTFファイルを読みこみ、扱う方法を習得すれば、検索プログラムが出来ると思います。
検索は「JavascriptオブジェクトやAPI」にそのものズバリはあるはずは
無いと思います。WINやJAVAやその他で検索エンジンまでAPIになっている例があるのでしょうか。
すなわち言いたいことは、RTFの形式のフォーマット詳細を調べるとかして勉強し、処理言語を決めて扱える事ができるようになることがターゲットでしょう。
(4)あと文章検索について色々なアルゴリズムがあるようですので、それを調べて勉強し、その処理言語で使用できるようになることでしょう。クラスモジュールのようなものが販売されておれば、使えると早いでしょうが。
経験のないものがあれこれいっておりますが、目指し進む方向がちょっと
気になりましたので。得るものがあれば幸甚です。
返答が遅れまして、申し訳ございませんでした。
色々と調べて頂き、ご助言頂きまして大変恐縮です。
その後調査を致しましたところ、http://partners.adobe.com/asn/developer/acrosdk/ …
のDevelopment Kitにて、VC用のヘッダーファイルや、Javascript
オブジェクトを使用したVBのサンプルコードが公開されていました。
まだ深くは解読していませんが、そこで使用されているオブジェクト
&メッソドを使用すれば、テキストベースに変換したりだとかいう
ステップは省略できそうです。
ただ、Acrobat Readerのプラグインツールとして開発するのであれば
Adobe社の開発キット等を購入する必要があるようです。
また、Adobe社へ問い合わせ致しましたところ、
「PDFのテキスト情報を検索する」
というアプリケーションを開発するにあたっては、特に許諾などは
必要ないということです。
意外とPDFの需要は伸びてきているようなので、そういったPDFを対象とした
開発に関するKnowHow資料も、書籍などでもっと欲しいところですね。
いろいろアドバイス頂き、誠に有難うございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- PDF Adobe Acrobat 9 Standard 1 2022/10/16 21:08
- Excel(エクセル) PHPプログラムをエクセルに張り付けると検索ボックスがでてくる! 3 2022/05/08 07:10
- USBメモリー・SDカード・フラッシュメモリー PDF文書をCD-Rで配るときの注意事項 4 2022/03/31 16:49
- WordPress(ワードプレス) WordPressのサイトにPDFをアップロードした際にGoogleなどの検索結果に出ないでほしい 1 2022/08/03 10:44
- その他(自然科学) 科学全般で学術論文を手軽に検索できて、かつpdf版でダウンロードできるサイトを教えてください。 でき 3 2023/02/21 22:38
- その他(パソコン・スマホ・電化製品) アンドロイドのスマホでPDFを開くには 6 2023/01/14 12:41
- Visual Basic(VBA) VBAでPDFのアクティブページ番号取得 1 2023/05/25 12:41
- その他(プログラミング・Web制作) ロボットの作り方を教えて下さい! なにも知らない素人です。 全て自作する場合、どうすればよいでしょう 6 2022/12/18 01:25
- PDF ワードで作った文書のPDF化 5 2023/04/10 16:56
- PDF 間違ってPDFに不可視署名をしてしまったのですが、削除の方法を教えてください 1 2022/10/06 12:07
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
C言語初心者の質問失礼します。
-
ドラッグアンドドロップでファ...
-
iniファイルに追記がしたいです。
-
ASP .NETでファイル選択ダイア...
-
WAVファイル同士の結合が可...
-
csvファイルを開かずに文字を検...
-
ファイル名の先頭にアンダース...
-
Excelマクロでの再読込み方法
-
C言語のfopenについて教えてく...
-
複数ブックの統合について Exce...
-
fopenの"r+"モードで同時に読み...
-
htmlを置換する方法とjsp表示
-
複数のファイルからのデータの...
-
ファイルを開かずにカスタムド...
-
VBAにてEXCEL以外のファイル(テ...
-
Arduinoでのライブラリファイル...
-
大きいサイズのテキストファイ...
-
2つのCSVファイルの比較
-
アドレス帳WABファイルをサンダ...
-
ファイルクローズとメモリ使用...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
C言語初心者の質問失礼します。
-
csvファイルを開かずに文字を検...
-
ファイル名の先頭にアンダース...
-
CSVファイルへの保存の際、デー...
-
ファイルを記録してあるセクタ...
-
テキストファイルの最終行を削...
-
SGファイルって何ですか?
-
ドラッグアンドドロップでファ...
-
分割コンパイルの#defineについて
-
VBに、Cのincludeのようなもの...
-
fopenできる上限の変更
-
グローバル変数のよくない使い...
-
ファイルの結合
-
大きいサイズのテキストファイ...
-
iniファイルに追記がしたいです。
-
バッチで118項目のCSVを処理し...
-
ハッシュの計算時間について
-
C言語のfopenについて教えてく...
-
Javascript で INI の読み書き
-
Excelマクロでの再読込み方法
おすすめ情報