電子書籍の厳選無料作品が豊富!

PDFファイル中の文字が、なぜか少しにじんで、文字として読めるのですが、テキストとして認識しません。このような状態のPDFファイルをWordに変換するOCRソフトを教えて下さい。できたらフリーがいいですが、なければシェアウェアでもいいです。

A 回答 (2件)

PDFからWordなどに直接変換するソフトは多分、フリーやシェアウェアでは無いと思われます。


また、OCRのソフトですが、PDFをそのままOCRするには、Adobe社のAcrobatを使用する方法か専用のOCRソフトを購入する必要があると思います。
専用のOCRソフトでは、『読んでココ』と言うソフトが比較的有名かと思います。
http://ai2you.com/ocr/

フリーで行いたいのでしたら次の方法が提案できます。

1.PDFをJPG画像に変換する。また文字の輪郭をはっきりさせる。PDFに書き戻す(ChainLP)
2.1で作成した文字輪郭をはっきりさせたJPG画像のOCRをかける(i2OCR:Webサービスです)
3.OCRの結果と1で書き戻したPDFを結合する(PrimoPDF)

それぞれソフト及びウェブサービスはサイトは以下にいあります。
ChainLP
http://no722.cocolog-nifty.com/blog/chainlp/

i2OCR
http://www.sciweavers.org/free-online-ocr

PrimoPDF
http://www.primopdf.com/index.aspx

しかし、i2OCRの文字認識率は非常に低いです。
もし、質問者様がにじんだ文字を少し読みやすくしたいと言うだけでしたらChainLPを使われるとにじみは少なくなると思います。

さらに、テキストとして認識される部分までを目的とするのでしたら期待される結果は得られにくいと思います。i2OCRの文字認識率が非常に低いためです。

上記のAcrobatや読んでココなどのOCRを持ちいれば、テキストとしては認識するようになりますが、文字のにじみは直らないと思います。また、これらのOCR専用ソフトであっても文字認識率は100%にはなりません。なぜなら、OCRそのものの機能が画像を解析して、解析結果近い文字をあてはめる作業を行うからです。解析アルゴリズムは各社様々ですが、画像->文字へ変換するための完璧なアルゴリズムは現状存在しません。にじんでいる画像PDFなら尚更認識率は下がる事と思います。
Acrobatも読んでココも体験版があると思いますので、実際使われてみると認識率がわかると思います。

OCRが完璧で無い以上、仮にWordなどを生成しても完璧なWordが出来ないと言う事です。

綺麗に読みたいか、テキストとして認識したいかのどちらかに分けられてソフトを選択されるといいかと思います。
    • good
    • 0

出来るかどうかは不明ですが



pdftoexcel

もしくは

pdftoword

と検索してみてください。

アメリカのサイトですがfreeで変換してもらえます。


一部、出来ないpdfもあるようですが、便利なサイトなので使用してます。

お試しください。
    • good
    • 0
この回答へのお礼

質問に答えて頂いてありがとうございました。
しかし、このサイトは使用してみましたがもりでした。

お礼日時:2011/04/23 23:23

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!