初めて自分の家と他人の家が違う、と意識した時

FAXで注文がきた用紙をOCRソフトを使用してテキスト文字に起こしたのですが、それを1つ1つコピーでエクセルに貼り付けるのではなく、何か簡単に抜き出す方法はありますでしょうか。
PDFelement 6 Pro というのを無料体験で使用している最中です。
OCRソフトでおすすめがありましたら、教えて下さい。

質問者からの補足コメント

  • へこむわー

    FAXの機械が富士ゼロックスの複合機を使用していて、「DocuWorks」というもので、ファイルの中身を確認しているのですが、そのファイルの拡張子が「.xdw」になっているのです。
    おすすめの「読取り革命」の無料体験をダウンロードして、体験しようとしたのですが、PDFファイルしか開かないのです。
    「DocuWorks」内でファイルをPDFに変換できるので、変換した後に「読取り革命」を使用してみたのですが、文字化けしてうまくいきません。
    「.xdw」を「.pdf」に変換すると、文字が劣化するようです。
    「.xdw」ファイルが直接読み込みできれば、文字化けせずにいけそうなのですが・・・とても残念です。
    何かいい方法ないでしょうか。どうぞよろしくお願い致します。

      補足日時:2018/10/11 16:13

A 回答 (4件)

こんにちは。



No.3の話は、少しずれていたような気がします。
「DocuWorks」は興味があるのですが、今ひとつ分かっていません。
「DocuWorks」は、富士ゼロックスの複合機を前提としたソフトウェアなのでしょうか?
そうすると、今回の話は、私は見誤っていたかもしれません。

>「DocuWorks」内でファイルをPDFに変換できるので、変換した後に「読取り革命」を使用してみたのですが、文字化けしてうまくいきません。

これは、「読取革命」の問題ではなくて、すでに、OCRが通っているからだと思います。pdf 化する時に、「DocuWorks」は、「e.Typist」というOCRで変換されているはずです。
本当は、OCRで、pdf 化すること自体では、文字化けというのはありえないことなのです。
理由は、レイアー構造で、表面は画像が載り、下に透明テキストが入るからです。ただ、その時に、「e.Typist」では、pdf化する時に、表面画像自体を劣化させます。

それで、あまり周辺的な話を長引かせても混乱するだけなので、私自身の考えをまとめますと、

「DocuWorks」や複合機で、FAXデータを、jpeg ,bmp, tiff などのOCRソフトで読める出力があれば、別のOCRソフトは生きますが、「DocuWorks」直結の形にしかならないのでしたら、他のOCRは生きないし、今の流れの中で、たぶん、Excelファイル形式の出力がありますから、それを利用していくしか選択肢はないものだと思います。

なお、
「モノマニア」
http://monomania.sblo.jp/article/55737163.html
今回の参考にしました。
    • good
    • 0
この回答へのお礼

「DocuWorks」内にOCR機能がついていて、実験してみたのですが、うまく文字お越しできませんでした。
FAXデータを「.xdw」ではなく「.pdf」として取り込む設定が「DocuWorks」内でできて、「読取革命」や「PDFelement 6 Pro」で試してみたのですが、やはりうまく文字お越しできませんでした。
難しいようです。
親身になって色々アドバイスをいただきまして、ありがとうございました。

お礼日時:2018/10/17 13:19

DocuWorks の話が出てきましたので、少し、話を戻さなくてはならないかもしれません。

今、私は、DocuWorks を購入しようか思案中ですが、実際に使ったことがないので、詳しくは分かりません。ですが、DocuWorksには、OCRは付いているはずです。

それで、pdf化させる・させないは、保管だけの問題で、最終的にExcelやWordに移管させるなら、pdf を残す必要はないはずです。

OCRした結果をWordやExcelに変換したい
https://www.fujixerox.co.jp/support/software/doc …

もう一度、DocuWorks の機能側を確認していただけませんでしょうか。

もし、DocuWorksが完璧なら、このあとの話は不要です。『読取り革命』などOCR は、保管はtiff ファイルを基本とし、閲覧はjpegなどが利用できます。だから、出力にpdf 選択しかないということはないのですが、ただ、OCR自体は、そこからテキストファイルをいかに精度が高く、文字等を正確に取り出すことが最終目標です。

No.2 の続きの画像を貼り付けますが、『読取り革命』は、レイアウトを優先させれば、ノーマルのxls, xlsx では、数字の部分以外は、テキストボックスの中に、テキストを封入するスタイルになってしまいます。

csv でどうなるのか、御覧ください。レイアウトは完全に崩れています。また、文字化けのいくつかは、OCRの問題ではなく、pdf 側のフォントの問題です。Print Friendlyというツールで、pdf 化をした時に正しいフォントが入らないからです。
「OCRで起こしたテキスト文字をCSVファ」の回答画像3
    • good
    • 0

こんばんは。



私は、『読取り革命』『E.Typist』『読んdeココ』の三つを、Windows 10 64bit環境に入れてあり、どれも現行バージョンで、稼働します。

国産のOCR では、もはやパナソニックの『読取り革命』以外には、まともなOCRは存在しないと思います。他にも、PDF化させるときに、テキストを埋め込むためのOCRがついているものもありますが、それらは除外します。

https://my-best.com/2213
メディアドライブの『E.Typist』は、もうダメです。英和混在の時に、英数が全角で出てきてしまうことがあったり、サポートがあまりにもお粗末すぎて、もう文句もいう気力が出ませんでした。本来、エーアイの『読んde!!ココ』がダントツでしたが、今は、エプソンが扱っているのですが、パーソナル・バージョンしか存在しませんし、ハード屋さんの限界なのだろうか、スキャナーを作れば、それでよいという感覚なのだなって思いました。かつては、『読んde!!ココ』は、Excel出力には抜群の力を発揮してくれました。

むろん、PDFelementもう試したことがあります。Excelに出力してくれるはずです。
精度は今ひとつ落ちるのではないでしょうか。

OCR は、昔と比較すると、全体的に精度が落ちているのではないかと思います。
OCRにもグローバル化が入ってきて、PDFElement などは、仕組みは良く分かりませんが、アジア地域一括の扱いでOCRが働くようになっているのではないかと思います。

ふつう、OCR から、一気にExcelに出力するというのが一般的です。
3タイプの選択があります。『読取り革命』では、CSVで出力してみましたが、再度、マクロに掛けてレイアウトを整えたほうがよいかもしれません。たぶん、期待したほどではないと思います。

後、気になるのは、FAXなのですが、FAX受信は電子化はしないのでしょうか?
紙データですと、劣化してしまいます。

画面:読取り革命 楕円の○内は、.xls, .xlsx, .csv の三択が可能
「OCRで起こしたテキスト文字をCSVファ」の回答画像2
    • good
    • 0

> それを1つ1つコピーでエクセルに貼り付けるのではなく、


逆に、それが可能ならばそれはCSVファイルになっているという事と思います。

以下ご参照ください。
http://www.moug.net/tech/exvba/0060086.html

複数のCSVファイルをシート別に読み込んだり、一括して一つのシートに読み込んだり、
いろんな方法が紹介されているので、検索してみてください。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報