OCRで起こしたテキスト文字をCSVファイルにする方法

Question

FAXで注文がきた用紙をOCRソフトを使用してテキスト文字に起こしたのですが、それを１つ１つコピーでエクセルに貼り付けるのではなく、何か簡単に抜き出す方法はありますでしょうか。
PDFelement 6 Pro　というのを無料体験で使用している最中です。
OCRソフトでおすすめがありましたら、教えて下さい。

WindFaller · Accepted Answer

こんにちは。

No.3の話は、少しずれていたような気がします。
「DocuWorks」は興味があるのですが、今ひとつ分かっていません。
「DocuWorks」は、富士ゼロックスの複合機を前提としたソフトウェアなのでしょうか？
そうすると、今回の話は、私は見誤っていたかもしれません。

>「DocuWorks」内でファイルをPDFに変換できるので、変換した後に「読取り革命」を使用してみたのですが、文字化けしてうまくいきません。

これは、「読取革命」の問題ではなくて、すでに、OCRが通っているからだと思います。pdf 化する時に、「DocuWorks」は、「e.Typist」というOCRで変換されているはずです。
本当は、OCRで、pdf 化すること自体では、文字化けというのはありえないことなのです。
理由は、レイアー構造で、表面は画像が載り、下に透明テキストが入るからです。ただ、その時に、「e.Typist」では、pdf化する時に、表面画像自体を劣化させます。

それで、あまり周辺的な話を長引かせても混乱するだけなので、私自身の考えをまとめますと、

「DocuWorks」や複合機で、FAXデータを、jpeg ,bmp, tiff などのOCRソフトで読める出力があれば、別のOCRソフトは生きますが、「DocuWorks」直結の形にしかならないのでしたら、他のOCRは生きないし、今の流れの中で、たぶん、Excelファイル形式の出力がありますから、それを利用していくしか選択肢はないものだと思います。

なお、
「モノマニア」
http://monomania.sblo.jp/article/55737163.html
今回の参考にしました。

WindFaller · Answer

DocuWorks　の話が出てきましたので、少し、話を戻さなくてはならないかもしれません。今、私は、DocuWorks を購入しようか思案中ですが、実際に使ったことがないので、詳しくは分かりません。ですが、DocuWorksには、OCRは付いているはずです。

それで、pdf化させる・させないは、保管だけの問題で、最終的にExcelやWordに移管させるなら、pdf を残す必要はないはずです。

OCRした結果をWordやExcelに変換したい
https://www.fujixerox.co.jp/support/software/docuworks_9/faq/contents/faq_00528.html

もう一度、DocuWorks の機能側を確認していただけませんでしょうか。

もし、DocuWorksが完璧なら、このあとの話は不要です。『読取り革命』などOCR は、保管はtiff ファイルを基本とし、閲覧はjpegなどが利用できます。だから、出力にpdf 選択しかないということはないのですが、ただ、OCR自体は、そこからテキストファイルをいかに精度が高く、文字等を正確に取り出すことが最終目標です。

No.2 の続きの画像を貼り付けますが、『読取り革命』は、レイアウトを優先させれば、ノーマルのxls, xlsx では、数字の部分以外は、テキストボックスの中に、テキストを封入するスタイルになってしまいます。

csv でどうなるのか、御覧ください。レイアウトは完全に崩れています。また、文字化けのいくつかは、OCRの問題ではなく、pdf 側のフォントの問題です。Print Friendlyというツールで、pdf 化をした時に正しいフォントが入らないからです。

WindFaller · Answer

こんばんは。

私は、『読取り革命』『E.Typist』『読んdeココ』の三つを、Windows 10 64bit環境に入れてあり、どれも現行バージョンで、稼働します。

国産のOCR では、もはやパナソニックの『読取り革命』以外には、まともなOCRは存在しないと思います。他にも、PDF化させるときに、テキストを埋め込むためのOCRがついているものもありますが、それらは除外します。

https://my-best.com/2213
メディアドライブの『E.Typist』は、もうダメです。英和混在の時に、英数が全角で出てきてしまうことがあったり、サポートがあまりにもお粗末すぎて、もう文句もいう気力が出ませんでした。本来、エーアイの『読んde!!ココ』がダントツでしたが、今は、エプソンが扱っているのですが、パーソナル・バージョンしか存在しませんし、ハード屋さんの限界なのだろうか、スキャナーを作れば、それでよいという感覚なのだなって思いました。かつては、『読んde!!ココ』は、Excel出力には抜群の力を発揮してくれました。

むろん、PDFelementもう試したことがあります。Excelに出力してくれるはずです。
精度は今ひとつ落ちるのではないでしょうか。

OCR は、昔と比較すると、全体的に精度が落ちているのではないかと思います。
OCRにもグローバル化が入ってきて、PDFElement などは、仕組みは良く分かりませんが、アジア地域一括の扱いでOCRが働くようになっているのではないかと思います。

ふつう、OCR から、一気にExcelに出力するというのが一般的です。
3タイプの選択があります。『読取り革命』では、CSVで出力してみましたが、再度、マクロに掛けてレイアウトを整えたほうがよいかもしれません。たぶん、期待したほどではないと思います。

後、気になるのは、FAXなのですが、FAX受信は電子化はしないのでしょうか？
紙データですと、劣化してしまいます。

画面：読取り革命　楕円の○内は、.xls, .xlsx, .csv の三択が可能

angkor_h · Answer

> それを１つ１つコピーでエクセルに貼り付けるのではなく、
逆に、それが可能ならばそれはCSVファイルになっているという事と思います。

以下ご参照ください。
http://www.moug.net/tech/exvba/0060086.html

複数のCSVファイルをシート別に読み込んだり、一括して一つのシートに読み込んだり、
いろんな方法が紹介されているので、検索してみてください。

OCRで起こしたテキスト文字をCSVファイルにする方法

こんにちは。

DocuWorks の話が出てきましたので、少し、話を戻さなくてはならないかもしれません。

こんばんは。

> それを１つ１つコピーでエクセルに貼り付けるのではなく、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

DocuWorks　の話が出てきましたので、少し、話を戻さなくてはならないかもしれません。