

http://kanpoo.jp/
のサイトで、検索すると、PDFの内容が検索できます。
検索できるということは、PDFの文字を取得できるからだと思うのです。
PDFの文字をデータベースに読み込みプログラムを作りたいです。
とりあえず、PDFの文字を取得するプログラムを作りたいのですが、
作り方が全くわかりません。
どの言語をつかえばいいのか?
どの関数、ライブラリ?をつかえばいいのか?
何度ググっても、PDFの文字を取得するサイトがみつけられないので、
偉い人教えてください。
No.2ベストアンサー
- 回答日時:
標準でそういう機能を持っている言語はあまりないと思います。
そのためのライブラリなどを追加して処理することになるでしょう。例えば、Javaの場合、Apache Software Foundationから「PDFBox」というライブラリが出ています。これを利用することで、PDFからテキストを取得できます。http://pdfbox.apache.org/
No.3
- 回答日時:
わざわざ作らなくたって
テキストを引っ張り出すツールを呼び出せばいい
xpdfのpdftotextとかが使えるし,
namazuのようにpdfも全文検索できるものが
どうやってるのかをみればいい
(namazuのインデクサはxpdfを使ってたような).
No.1
- 回答日時:
開発やったことない方なら、たしかにたどれないかもしれませんね。
通常、
SDK
OpenSouce
オープンソース
API
のキーワードを、アプリ名とか、ファイル形式について検索します。有償であったり、無償であったりします。
オープンソースと言うのは無償で、プログラムの内容を公開し、使ってもらうプログラムの事をさします。
http://www.google.co.jp/search?hl=ja&q=Acrobat+S …
http://www.google.co.jp/search?hl=ja&q=PDF+%E3%8 …
とかですね。その中から、
http://www.infoq.com/jp/news/2007/12/sun-release …
http://journal.mycom.co.jp/articles/2009/02/20/p …
http://kengo.preston-net.com/archives/002506.shtml
http://kb2.adobe.com/jp/cps/255/2558.html
これらとは別に、企業同士で提携すると、デベロッパー版が渡されます。それがSDKとか、フレームワークとか、API、SPIとかよばれるものです。
開発環境は、当然それらの物に依存するので、何かとは特定できませんが、昔からあるものなら、CがVBが多いです。
最近のものなら、C++、C#、Javaが多いです。
やる気があるひとなら、また許可されている場合は、別言語に書き換える方もいますが、Javaだと以外にそんあことしなくても、C++から使えます。
なお、COM(DCOM)として提供されていれば、VBS、VBA(つまりエクセルから使える)、JScriptなどのオブジェクト指向スクリプト言語が使えます。また、そのように開発している方もおおいです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- Excel(エクセル) PHPプログラムをエクセルに張り付けると検索ボックスがでてくる! 3 2022/05/08 07:10
- PDF いきなりPDFで文書の切り取り 3 2022/10/29 13:25
- C言語・C++・C# C言語で 英文字のみからなる文字列、”Radar”、”WasItACatISaw”、”a”、””(空 5 2022/12/20 15:17
- PDF ワードで作った文書のPDF化 5 2023/04/10 16:56
- Visual Basic(VBA) VBAでPDFのアクティブページ番号取得 1 2023/05/25 12:41
- WordPress(ワードプレス) WordPressのサイトにPDFをアップロードした際にGoogleなどの検索結果に出ないでほしい 1 2022/08/03 10:44
- PHP ここでの ②if($su_d<>"")の比較演算子 を使う理由は 1 2022/03/26 02:33
- Visual Basic(VBA) VBA★PDFをPDFアプリで印刷しようと思っていますが上手くゆきません 1 2022/06/06 22:04
- PHP htmlspecialcharsが機能していないです。 バグですか? 1 2022/04/05 01:22
- その他(自然科学) 科学全般で学術論文を手軽に検索できて、かつpdf版でダウンロードできるサイトを教えてください。 でき 3 2023/02/21 22:38
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
UNIX上のプログラムで使うライ...
-
python-opencv (2? ) のオプテ...
-
動的ロードのメリット
-
openCVの関数の中身を参照する...
-
ライブラリParamQuery gridにつ...
-
Excel 参照設定ActiveDirectory
-
スタティックライブラリを作成...
-
コンパイル時のエラー
-
ポップアップJqueryプラグイン...
-
VC++のCRTの実装を覗き見たい
-
Googlemapのように画像を拡大・...
-
Excel VBA のstr()関数でエラー
-
QRコード作成ライブラリ
-
オブジェクトライブラリ
-
gccでわざわざ-lmのようにライ...
-
拡張子.niiのファイルの開き方...
-
こんなAjaxのサンプルご存じな...
-
OSX写真アプリへの複数のライブ...
-
商用ホームページでのjQuery等...
-
MPL2.0ライセンスのライブラリ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
UNIX上のプログラムで使うライ...
-
拡張子.niiのファイルの開き方...
-
Excel VBA のstr()関数でエラー
-
DXライブラリの画像の表示の仕...
-
.NET(C#)でのスタックオーバー...
-
MakefileのLDLIBSとLOADLIBESの...
-
ライブラリParamQuery gridにつ...
-
QRコード作成ライブラリ
-
Googlemapのように画像を拡大・...
-
動的ロードのメリット
-
Linux で動的に動的結合をする...
-
「MFC40D.DLLがみつかりません...
-
PDFファイルの文字を取得するプ...
-
ライブラリ内の処理中における...
-
ファイルの圧縮/解凍(Zlib)に...
-
C言語 画像処理 jpeg → pgm
-
RapidSVNをUNIX上で使用したい
-
C++BuilderやDelphiでVC++用の...
-
コンパイル時のエラー
-
Unsatisfied code symbol エラ...
おすすめ情報