アプリ版:「スタンプのみでお礼する」機能のリリースについて

ご存知の方がいらっしゃればアドバイスをお願いします。

現在、いろいろなツールを使用してPDF文書からテキスト変換を行っているのですが、
望んだ通りのものが出力されません。

------------------------------------------------------------------------

(1)PDF文書
00000000 あいうえお
00000010 かきくけこ
00000020 さしすせそ
00000030 たちつてと
00000040 〇〇 さん から △△ さん へ


(2)変換後
00000000 あいうえお00000010 かきくけこ
00000020 さしすせそ
00000030たちつてと
00000040 〇〇さんから △△さんへ

------------------------------------------------------------------------

上記は変換後の1例になりますが、ネットで調べて、様々な変換ツールを使用しても
改行やスペースをうまく判断してくれません。
ある程度までなら我慢しようと思うのですが、できるだけ正確にPDFをそのままテキスト変換
したいと考えております。

どなたかPFDを見た目そのままにテキスト変換するツールについて、お勧めのものがあれば
アドバイスをお願い致します。
フリー、シェアの如何は問いませんので、宜しくお願い致します。

A 回答 (2件)

古いデータですが、


「リッチテキストPDF2」「Acrobat 8 Standard」「同Professional」「PDF2Office Personal Version 2.0」が、元々のPDFの文書構造を解析してテキスト抽出するタイプだったようですので、これらの新しいソフトを検討されては如何でしょう?

http://pc.nikkeibp.co.jp/article/NPC/20070130/26 …
    • good
    • 0
この回答へのお礼

お礼が遅れて申し訳ありません。

教えて頂きましたツールについて、体験版等を入手し、
試して見たいと思います。

>元々のPDFの文書構造を解析してテキスト抽出するタイ>プだったようですので、・・・・・

この視点でツールを探せばよかったのですね。
目から鱗でした。。。。。

お礼日時:2013/07/04 11:20

PDFを作成した文書や印刷(PDF化)ツールに依存するのです。


いっそのこと、画像としてOCRを使用するほうが良いです。そのかわり文字は誤判断されることがあります。

理由)
 PDFはPostscriptデータという印刷データを可視化したものだからです。
以前
 ⇒Acrobat ProとAdobe readerの - その他(ソフトウェア) - 教えて!goo( http://oshiete.goo.ne.jp/qa/8136284.html )
 で極簡単に説明したので・・、直接は関係ないですがお読みいただけたらと思います。
    • good
    • 0
この回答へのお礼

ご回答、ありがとうございます。

作業上、大量のPDFデータに対して検索やgrepを
行う必要があり、テキストデータとして保存したいと
考えています。
PDFでも検索、grepが可能なことは承知していますが、
効率の面からどうしてもテキスト化したいと考えています。

お礼日時:2013/06/24 14:31

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!