PDFから文字化けしないテキスト変換方法は？

解決済

質問者：1dondon1
質問日時：2014/05/12 05:26
回答数：1件

スキャンスナップで自炊したPDFファイルをOCR処理や文字をメモ帳にコピペしテキストファイル化すると、どうしても文字化けしてしまいます。保存の形式も色々と試しましたが中国語みたいな漢字に変換や文字抜けが発生します。文字化けしない良い方法はありますか？ご教示よろしくお願いいたします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

ベストアンサー優先
最新から表示
回答順に表示

No.1ベストアンサー

回答者： RandenSai
回答日時：2014/05/12 09:08

自炊だとテキスト情報はOCRで生成するわけですが、OCRの認識率が100％じゃない以上は文字化けなどはどうしても発生してしまいます。

いまどきのOCRなら99％かそれ以上の認識率はあるでしょうけど、99％だって100文字読んだら1文字は間違える計算になり、まとまった量の文字を読ませれば結構な誤読が発生してしまうことに。

テキストをコピペする方法にかかわらず、元になるテキストに誤読があるわけだから、いかなる方法でコピペしようと文字化けは回避不可能です。気が付いた時点で「必殺・全手動修正」を発動させるしかありません。

出来上がりのファイルサイズを小さくするために、取り込みの時の解像度を下げすぎると誤読が増えやすいので、ここはあまりケチらない方が良いかとは思います。面倒だけど、見た目や認識率、ファイルサイズのバランスを取れる設定を試行錯誤する必要があるでしょう。