ocr化したPDFを,KindlePW内で単語を辞書で調べたり文字を調整出来るよう加工しているのですが,効率の良い方法はありますか?
私がいまやっているのは,AcrobatでPDFのOcr化した文字をすべて選択して,Textファイルにペーストしているのですが,やはりページ数や無駄なものもペーストされてしまい上手く行きません。(+結構文字化けもする)
ChainLPでPDFを修正後コピーアンドペーストしたらどうかとも思ったのですが,出力時にどうやらORCの情報が消去されてしまうようで無理ですね。
良い方法があったら教えて下さい。
よろしくお願いします。
No.2ベストアンサー
- 回答日時:
過日、日常的にOCRを行なっているというホニャララ出版のなんとか業務部がわずか1日で仕上げたというOCRテキスト(原稿は週刊誌の連載エッセーのコピー200枚ほど。
縦五段組でけっこう複雑なレイアウト。しかも無闇にルビが多い)を見る機会があり、あまりの精度の高さに驚愕いたしました。最終的に発見された誤字は、全体を通してわずかに1字。メールで話題にしたので覚えてます。誤:「箭」
正:「前」
>AcrobatでPDFをOCR→Textファイルにペースト→
>ページ数や無駄なものもペースト+結構文字化けもする
わかる。僕が驚愕したのも認識精度だけではなく、小見出しとかノンブルとかルビだとかをすべてカットして、綺麗に本文だけテキスト化されてたんですよ。そりゃコツコツやれば可能だろうけど、現に頼んだ翌日に来ましたからねー。自動でできるんでしょうね。
何使ってるのか編集者経由で教えてもらったんですが、スキャナは富士通ScanSnap、OCR ソフトの名前は聞いたけど忘れました。ただ、その段階では使い物にならず、「キモは、そうしてできたテキストを、一太郎の校正機能にかけること」「一太郎の校正能力は学習(単語登録みたいな感じ?)させて育てる」だそうです。持ってないのでよくわかりませんが、一太郎。Windows環境でしたら試す価値あるかも。
(これ書きながら気付いたんですが、そう言えば「なんとか業務部→編集者→僕」と渡る過程で、けっこう編集者が直してた、という可能性はありますね。今度聞いてみます。ただ、その編集さん自身が、早さと精度についてかなり驚いていたことは事実です)
そういった生の情報,とても参考になります。
OCRソフトに全てを任せると言うより,その後「一太郎」の校正機能にかけるのですね。
そのソフト,調べてみますね。
ありがとうございます。
No.1
- 回答日時:
米国のみでの販売ですが、このようなものが出てきました。
http://japanese.engadget.com/2015/02/03/a/
日本では、でるかどうかわかりませんが…待ってみる価値はあるかもしれませんね。
確認しました。
情報ありがとうございます。
>待ってみる価値はあるかもしれませんね。
そうですね。日本は電子書籍化も遅いし,かといって自炊のためのアプリも限られてて(あまり専門的だとわかんないし泣)。
日本向けのKindle Converter 早く出てほしいですね
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(プログラミング・Web制作) python OpenPyXLを使って出力結果をエクセルに書き込み 2 2022/06/04 19:46
- Visual Basic(VBA) 複数ページあるPDFファイル内の文字列等の情報をキーにPDFをグループ分け分割したい。 2 2022/06/25 09:51
- Excel(エクセル) 年末調整書類をExcel→スプレッドシートへ変換したい場合 2 2022/11/15 17:13
- PDF AutoCAD図面をPDF fileに変換した際、画像情報やブロック名はわかるのでしょうか。 1 2022/06/03 09:42
- PDF acrobatでwordファイルをpdfに変換すると文字化けする 3 2023/02/10 09:31
- PDF Adobe Acrobat DCでは複数のPDFをOCR化できますか? 2 2022/04/19 15:25
- PDF Adobe Acrobat 9 Standard 1 2022/10/16 21:08
- PDF 「PDF文書を簡単にWordで編集する方法」と 罫線が 図形で出力されるのは? 6 2022/06/14 06:51
- WordPress(ワードプレス) WordPressのサイトにPDFをアップロードした際にGoogleなどの検索結果に出ないでほしい 1 2022/08/03 10:44
- Excel(エクセル) 【VBA】PDF出力に任意のファイル名前を付ける方法 3 2023/07/21 10:55
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
一太郎で作った文書をWord変換
-
ワープロソフト一太郎の「感太...
-
エクセルの表を選択し、「画像...
-
一太郎はどうなった?
-
ワープロソフトは、word、一太...
-
一太郎がバンドルされたパソコンて
-
一太郎で2行の真ん中に表示
-
一太郎の$tdファイルをWordで開...
-
一太郎のコピー、貼り付けにつ...
-
エクセルのデータ(マクロを含...
-
一太郎をワードに変換
-
ノートPCで一太郎というソフト...
-
一太郎で垂れ幕印刷
-
一太郎でテキストボックスは?
-
数学のルート記号を一太郎で入力
-
TrueTypeフォントをビットマッ...
-
一太郎からWordへの文の変換に...
-
WORD文書を一太郎に変換す...
-
一太郎 塗りつぶしが真っ黒に
-
一太郎の「Internal applicatio...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
一太郎をワードに変換
-
エクセルの表を選択し、「画像...
-
一太郎で作った文書をWord変換
-
一太郎で作成した文書をコピペ...
-
一太郎のコピー、貼り付けにつ...
-
一太郎ファイル→Wordファイル ...
-
一太郎ファイルをExcelで開きたい
-
ワープロソフト一太郎の「感太...
-
WORD文書を一太郎に変換す...
-
Wordを一太郎に変換
-
一太郎はどうなった?
-
一太郎に貼り付けられた画像を...
-
一太郎のあるページを丸ごと挿...
-
ワープロソフトは、word、一太...
-
一太郎で「読み込めない形式の...
-
一太郎がバンドルされたパソコンて
-
一太郎2022に古いATOKは使える...
-
一太郎のヘッダーとフッターに...
-
一太郎の$tdファイルをWordで開...
-
一太郎文書が「〇〇.jtd.tdhm」...
おすすめ情報