ocr済みPDFファイルをKindlePWで快適（辞書検索，文字調整が出来るよう）に読む方法について

解決済

質問者：amazoneth
質問日時：2015/03/16 04:53
回答数：2件

ocr化したPDFを，KindlePW内で単語を辞書で調べたり文字を調整出来るよう加工しているのですが，効率の良い方法はありますか？
私がいまやっているのは，AcrobatでPDFのOcｒ化した文字をすべて選択して，Textファイルにペーストしているのですが，やはりページ数や無駄なものもペーストされてしまい上手く行きません。（＋結構文字化けもする）

ChainLPでPDFを修正後コピーアンドペーストしたらどうかとも思ったのですが，出力時にどうやらORCの情報が消去されてしまうようで無理ですね。

良い方法があったら教えて下さい。
よろしくお願いします。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： toast5
回答日時：2015/03/21 19:34

過日、日常的にOCRを行なっているというホニャララ出版のなんとか業務部がわずか１日で仕上げたというOCRテキスト（原稿は週刊誌の連載エッセーのコピー200枚ほど。

縦五段組でけっこう複雑なレイアウト。しかも無闇にルビが多い）を見る機会があり、あまりの精度の高さに驚愕いたしました。最終的に発見された誤字は、全体を通してわずかに１字。メールで話題にしたので覚えてます。

　　　誤：「箭」
　　　正：「前」

>AcrobatでPDFをOCR→Textファイルにペースト→
>ページ数や無駄なものもペースト＋結構文字化けもする

わかる。僕が驚愕したのも認識精度だけではなく、小見出しとかノンブルとかルビだとかをすべてカットして、綺麗に本文だけテキスト化されてたんですよ。そりゃコツコツやれば可能だろうけど、現に頼んだ翌日に来ましたからねー。自動でできるんでしょうね。

何使ってるのか編集者経由で教えてもらったんですが、スキャナは富士通ScanSnap、OCR ソフトの名前は聞いたけど忘れました。ただ、その段階では使い物にならず、「キモは、そうしてできたテキストを、一太郎の校正機能にかけること」「一太郎の校正能力は学習（単語登録みたいな感じ？）させて育てる」だそうです。持ってないのでよくわかりませんが、一太郎。Windows環境でしたら試す価値あるかも。

（これ書きながら気付いたんですが、そう言えば「なんとか業務部→編集者→僕」と渡る過程で、けっこう編集者が直してた、という可能性はありますね。今度聞いてみます。ただ、その編集さん自身が、早さと精度についてかなり驚いていたことは事実です）