アプリ版:「スタンプのみでお礼する」機能のリリースについて

PDFそのものから、テキストの抽出は可能ですか?
Acrobat 6では、テキスト保存機能がついているのでPDFをテキストファイルに保存できますよね。
ということは、PDFでもテキストファイルで保存したものは、PDFそのものからテキスト抽出できるということですか?
逆に、Acrobat 6以前ので作られた、バイナリデータとしてのPDFからは、そのままでは抽出できないということですか?

A 回答 (3件)

PDFファイルの内部には確かにテキスト情報を持っています。

そこから、テキスト抽出するソフトウェアは存在します。ただ、業務用の非常に高価なソフトが多いです。

Linux環境ですと、xpdfについてくるpdftotextというプログラムを使ってPDFからテキスト抽出できます。

Windows環境ですと、現実的にはAcrobat を使うことになると思います。

PDFの構造は公開されていますので、ご自分でテキスト抽出プログラムを作ることも不可能ではありません。

参考URL:http://partners.adobe.com/public/developer/pdf/i …
    • good
    • 0

>PDFそのものから、テキストの抽出は可能ですか?


http://www.geocities.co.jp/SiliconValley-Bay/199 …
を参照してみてください。

参考URL:http://www.geocities.co.jp/SiliconValley-Bay/199 …
    • good
    • 0

 Acrobat 6以前ので作られたものでも、Acrobat 6で読み込めば、テキスト抽出できます。

    • good
    • 0
この回答へのお礼

回答どうもありがとうございます!

ということは、Acrobat 6以前ので作られたものは、
Acrobat 6で読み込まない限り、PDFそのものからテキスト抽出は無理ということでしょうか?
何か参考になるURLがあれば教えてくださると、助かります。
よろしくお願いします。

お礼日時:2004/11/14 06:45

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!