プロが教える店舗&オフィスのセキュリティ対策術

ocr化したPDFを,KindlePW内で単語を辞書で調べたり文字を調整出来るよう加工しているのですが,効率の良い方法はありますか?
私がいまやっているのは,AcrobatでPDFのOcr化した文字をすべて選択して,Textファイルにペーストしているのですが,やはりページ数や無駄なものもペーストされてしまい上手く行きません。(+結構文字化けもする)

ChainLPでPDFを修正後コピーアンドペーストしたらどうかとも思ったのですが,出力時にどうやらORCの情報が消去されてしまうようで無理ですね。

良い方法があったら教えて下さい。
よろしくお願いします。

A 回答 (2件)

過日、日常的にOCRを行なっているというホニャララ出版のなんとか業務部がわずか1日で仕上げたというOCRテキスト(原稿は週刊誌の連載エッセーのコピー200枚ほど。

縦五段組でけっこう複雑なレイアウト。しかも無闇にルビが多い)を見る機会があり、あまりの精度の高さに驚愕いたしました。最終的に発見された誤字は、全体を通してわずかに1字。メールで話題にしたので覚えてます。

   誤:「箭」
   正:「前」

>AcrobatでPDFをOCR→Textファイルにペースト→
>ページ数や無駄なものもペースト+結構文字化けもする

わかる。僕が驚愕したのも認識精度だけではなく、小見出しとかノンブルとかルビだとかをすべてカットして、綺麗に本文だけテキスト化されてたんですよ。そりゃコツコツやれば可能だろうけど、現に頼んだ翌日に来ましたからねー。自動でできるんでしょうね。

何使ってるのか編集者経由で教えてもらったんですが、スキャナは富士通ScanSnap、OCR ソフトの名前は聞いたけど忘れました。ただ、その段階では使い物にならず、「キモは、そうしてできたテキストを、一太郎の校正機能にかけること」「一太郎の校正能力は学習(単語登録みたいな感じ?)させて育てる」だそうです。持ってないのでよくわかりませんが、一太郎。Windows環境でしたら試す価値あるかも。

(これ書きながら気付いたんですが、そう言えば「なんとか業務部→編集者→僕」と渡る過程で、けっこう編集者が直してた、という可能性はありますね。今度聞いてみます。ただ、その編集さん自身が、早さと精度についてかなり驚いていたことは事実です)
    • good
    • 0
この回答へのお礼

そういった生の情報,とても参考になります。

OCRソフトに全てを任せると言うより,その後「一太郎」の校正機能にかけるのですね。
そのソフト,調べてみますね。

ありがとうございます。

お礼日時:2015/03/23 18:49

米国のみでの販売ですが、このようなものが出てきました。


http://japanese.engadget.com/2015/02/03/a/

日本では、でるかどうかわかりませんが…待ってみる価値はあるかもしれませんね。
    • good
    • 0
この回答へのお礼

確認しました。

情報ありがとうございます。

>待ってみる価値はあるかもしれませんね。
そうですね。日本は電子書籍化も遅いし,かといって自炊のためのアプリも限られてて(あまり専門的だとわかんないし泣)。
日本向けのKindle Converter 早く出てほしいですね

お礼日時:2015/03/20 20:20

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!