dポイントプレゼントキャンペーン実施中!

http://kanpoo.jp/
のサイトで、検索すると、PDFの内容が検索できます。
検索できるということは、PDFの文字を取得できるからだと思うのです。

PDFの文字をデータベースに読み込みプログラムを作りたいです。

とりあえず、PDFの文字を取得するプログラムを作りたいのですが、
作り方が全くわかりません。
どの言語をつかえばいいのか?
どの関数、ライブラリ?をつかえばいいのか?

何度ググっても、PDFの文字を取得するサイトがみつけられないので、
偉い人教えてください。

A 回答 (3件)

標準でそういう機能を持っている言語はあまりないと思います。

そのためのライブラリなどを追加して処理することになるでしょう。例えば、Javaの場合、Apache Software Foundationから「PDFBox」というライブラリが出ています。これを利用することで、PDFからテキストを取得できます。

http://pdfbox.apache.org/
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
自分には敷居が高すぎたようです。

お礼日時:2011/05/24 22:20

わざわざ作らなくたって


テキストを引っ張り出すツールを呼び出せばいい

xpdfのpdftotextとかが使えるし,
namazuのようにpdfも全文検索できるものが
どうやってるのかをみればいい
(namazuのインデクサはxpdfを使ってたような).
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
pdftotextを使用してみましたが、日本語がうまく変換できませんでした。

お礼日時:2011/05/24 22:19

開発やったことない方なら、たしかにたどれないかもしれませんね。



通常、

SDK
OpenSouce
オープンソース
API

のキーワードを、アプリ名とか、ファイル形式について検索します。有償であったり、無償であったりします。

オープンソースと言うのは無償で、プログラムの内容を公開し、使ってもらうプログラムの事をさします。

http://www.google.co.jp/search?hl=ja&q=Acrobat+S …

http://www.google.co.jp/search?hl=ja&q=PDF+%E3%8 …

とかですね。その中から、

http://www.infoq.com/jp/news/2007/12/sun-release …

http://journal.mycom.co.jp/articles/2009/02/20/p …
http://kengo.preston-net.com/archives/002506.shtml

http://kb2.adobe.com/jp/cps/255/2558.html

これらとは別に、企業同士で提携すると、デベロッパー版が渡されます。それがSDKとか、フレームワークとか、API、SPIとかよばれるものです。

開発環境は、当然それらの物に依存するので、何かとは特定できませんが、昔からあるものなら、CがVBが多いです。

最近のものなら、C++、C#、Javaが多いです。

やる気があるひとなら、また許可されている場合は、別言語に書き換える方もいますが、Javaだと以外にそんあことしなくても、C++から使えます。

なお、COM(DCOM)として提供されていれば、VBS、VBA(つまりエクセルから使える)、JScriptなどのオブジェクト指向スクリプト言語が使えます。また、そのように開発している方もおおいです。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
自分には敷居が高すぎました。

お礼日時:2011/05/24 22:18

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!