PDFファイルの文字を取得するプログラム

Question

http://kanpoo.jp/
のサイトで、検索すると、PDFの内容が検索できます。
検索できるということは、PDFの文字を取得できるからだと思うのです。

PDFの文字をデータベースに読み込みプログラムを作りたいです。

とりあえず、PDFの文字を取得するプログラムを作りたいのですが、
作り方が全くわかりません。
どの言語をつかえばいいのか？
どの関数、ライブラリ？をつかえばいいのか？

何度ググっても、PDFの文字を取得するサイトがみつけられないので、
偉い人教えてください。

noname#161640 · Accepted Answer

標準でそういう機能を持っている言語はあまりないと思います。そのためのライブラリなどを追加して処理することになるでしょう。例えば、Javaの場合、Apache Software Foundationから「PDFBox」というライブラリが出ています。これを利用することで、PDFからテキストを取得できます。

http://pdfbox.apache.org/

kabaokaba · Answer

わざわざ作らなくたって
テキストを引っ張り出すツールを呼び出せばいい

xpdfのpdftotextとかが使えるし，
namazuのようにpdfも全文検索できるものが
どうやってるのかをみればいい
（namazuのインデクサはxpdfを使ってたような）.

0909union · Answer

開発やったことない方なら、たしかにたどれないかもしれませんね。

通常、

SDK
OpenSouce
オープンソース
API

のキーワードを、アプリ名とか、ファイル形式について検索します。有償であったり、無償であったりします。

オープンソースと言うのは無償で、プログラムの内容を公開し、使ってもらうプログラムの事をさします。

http://www.google.co.jp/search?hl=ja&q=Acrobat+SDK&lr=lang_ja

http://www.google.co.jp/search?hl=ja&q=PDF+%E3%82%AA%E3%83%BC%E3%83%97%E3%83%B3%E3%82%BD%E3%83%BC%E3%82%B9&lr=lang_ja

とかですね。その中から、

http://www.infoq.com/jp/news/2007/12/sun-releases-lgpl-pdf-renderer

http://journal.mycom.co.jp/articles/2009/02/20/pdfcreator/index.html
http://kengo.preston-net.com/archives/002506.shtml

http://kb2.adobe.com/jp/cps/255/2558.html

これらとは別に、企業同士で提携すると、デベロッパー版が渡されます。それがSDKとか、フレームワークとか、API、SPIとかよばれるものです。

開発環境は、当然それらの物に依存するので、何かとは特定できませんが、昔からあるものなら、CがVBが多いです。

最近のものなら、C++、C#、Javaが多いです。

やる気があるひとなら、また許可されている場合は、別言語に書き換える方もいますが、Javaだと以外にそんあことしなくても、C++から使えます。

なお、COM（DCOM）として提供されていれば、VBS、VBA（つまりエクセルから使える）、JScriptなどのオブジェクト指向スクリプト言語が使えます。また、そのように開発している方もおおいです。

PDFファイルの文字を取得するプログラム

標準でそういう機能を持っている言語はあまりないと思います。

わざわざ作らなくたって

開発やったことない方なら、たしかにたどれないかもしれませんね。

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング