ご存知の方がいらっしゃればアドバイスをお願いします。
現在、いろいろなツールを使用してPDF文書からテキスト変換を行っているのですが、
望んだ通りのものが出力されません。
------------------------------------------------------------------------
(1)PDF文書
00000000 あいうえお
00000010 かきくけこ
00000020 さしすせそ
00000030 たちつてと
00000040 〇〇 さん から △△ さん へ
(2)変換後
00000000 あいうえお00000010 かきくけこ
00000020 さしすせそ
00000030たちつてと
00000040 〇〇さんから △△さんへ
------------------------------------------------------------------------
上記は変換後の1例になりますが、ネットで調べて、様々な変換ツールを使用しても
改行やスペースをうまく判断してくれません。
ある程度までなら我慢しようと思うのですが、できるだけ正確にPDFをそのままテキスト変換
したいと考えております。
どなたかPFDを見た目そのままにテキスト変換するツールについて、お勧めのものがあれば
アドバイスをお願い致します。
フリー、シェアの如何は問いませんので、宜しくお願い致します。
A 回答 (2件)
- 最新から表示
- 回答順に表示
No.2
- 回答日時:
古いデータですが、
「リッチテキストPDF2」「Acrobat 8 Standard」「同Professional」「PDF2Office Personal Version 2.0」が、元々のPDFの文書構造を解析してテキスト抽出するタイプだったようですので、これらの新しいソフトを検討されては如何でしょう?
http://pc.nikkeibp.co.jp/article/NPC/20070130/26 …
お礼が遅れて申し訳ありません。
教えて頂きましたツールについて、体験版等を入手し、
試して見たいと思います。
>元々のPDFの文書構造を解析してテキスト抽出するタイ>プだったようですので、・・・・・
この視点でツールを探せばよかったのですね。
目から鱗でした。。。。。
No.1
- 回答日時:
PDFを作成した文書や印刷(PDF化)ツールに依存するのです。
いっそのこと、画像としてOCRを使用するほうが良いです。そのかわり文字は誤判断されることがあります。
理由)
PDFはPostscriptデータという印刷データを可視化したものだからです。
以前
⇒Acrobat ProとAdobe readerの - その他(ソフトウェア) - 教えて!goo( http://oshiete.goo.ne.jp/qa/8136284.html )
で極簡単に説明したので・・、直接は関係ないですがお読みいただけたらと思います。
ご回答、ありがとうございます。
作業上、大量のPDFデータに対して検索やgrepを
行う必要があり、テキストデータとして保存したいと
考えています。
PDFでも検索、grepが可能なことは承知していますが、
効率の面からどうしてもテキスト化したいと考えています。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(プログラミング・Web制作) python OpenPyXLを使って出力結果をエクセルに書き込み 2 2022/06/04 19:46
- PDF PDF作成ファイルの不具合の件 5 2022/08/15 15:00
- PDF ワードで作った文書のPDF化 5 2023/04/10 16:56
- PDF WindowsでPDFの書き込みができるソフトを探しています 2 2023/05/01 11:25
- PDF I LOVE PDF利用 pdfからWordに変換について 回答お願いいたします。 無料のI LOV 1 2022/05/13 13:24
- PDF AutoCAD図面をPDF fileに変換した際、画像情報やブロック名はわかるのでしょうか。 1 2022/06/03 09:42
- Photoshop(フォトショップ) Photoshop に代わるソフトはありますか? 5 2023/01/26 13:24
- Excel(エクセル) 年末調整書類をExcel→スプレッドシートへ変換したい場合 2 2022/11/15 17:13
- PDF いきなりPDFで文書の切り取り 3 2022/10/29 13:25
- Visual Basic(VBA) 特定の文字を簡単な操作で半角スペースに変換するか削除したい 2 2022/11/01 10:35
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
緯度・経度の値をエクセルで変...
-
エクセル関数/10進法から60進法...
-
MP3を楽譜に変換するサイト、ア...
-
意外に?以外に??どちらが正...
-
miniSD変換アダプタ
-
VB.NETで小数点以下の桁数を取...
-
つらそう…を丁寧に言うなら、お...
-
スプレッドシートから、スプレ...
-
PNGファイルをSVGにロスなしで...
-
Wordに囲い文字というのがない...
-
JUST PDF 3 [作成・高度編集・...
-
文字変換の優先順位変更のやり方
-
デザイン
-
Wordで英文を打つ際、予測変換...
-
勝手に無変換になる
-
単位の リューベ って
-
エクセルで、小数点は、全て切...
-
hhmmss形式を秒に変換する方法...
-
CubePDFが使えなくなりました(W...
-
50Hzのシンクロナスモータを60H...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
緯度・経度の値をエクセルで変...
-
エクセル関数/10進法から60進法...
-
MP3を楽譜に変換するサイト、ア...
-
意外に?以外に??どちらが正...
-
つらそう…を丁寧に言うなら、お...
-
PDFファイルのプロパティ内容削...
-
名前を数字にしたい。
-
miniSD変換アダプタ
-
CPU 100%
-
VB.NETで小数点以下の桁数を取...
-
スクリーンショット:文字がぼ...
-
土日祝 の正しい読みは
-
スプレッドシートから、スプレ...
-
スマホで、「いま」と打てば今...
-
Wordに囲い文字というのがない...
-
クリスタでCMYKのデータを読み...
-
Windows Media PlayerからMP3に...
-
漢数字を算用数字に変換したい...
-
勝手に無変換になる
-
使っている水質検査の紙がmg/L...
おすすめ情報