街中で見かけて「グッときた人」の思い出

■理想の手順
1) Mac/iPhoneで大量のスクリーンショットをキャプチャする
 ※pngファイル、約1000枚
2) PDF等で一つのファイルにまとめ、一括でOCRテキスト認識
3) テキストのみを抜き出す

■困っている点
1枚くらいであれば苦なく上記作業ができるのですが
1000枚単位で同作業が必要なので
なんとか効率化できないかと悩んでおります。

テキストだけ抜き出せるなら、上記手順には拘りません。

■環境
Mac OS X 10.7.4 Lion
Acrobat 9 Pro
LibreOffice 3.5.4.2(OpenOffice後継)

ご教授のほど、よろしくお願いいたします。

A 回答 (5件)

確認ですが


>1) Mac/iPhoneで大量のスクリーンショットをキャプチャする
これwebページじゃ無いの?
webページなら別方法あるけど・・・・
教えてください。

この回答への補足

ご協力ありがとうございます!

Webページではなく
iPhoneアプリ内データのキャプチャや
Macのスクリーンショット機能(Cmd + Shift + 4)です。

Webページの場合は
どのような方法があるのでしょうか?

■以下、質問文への補足です
Office系のソフトに
大量png画像を挿入 → PDF化 → 一括でOCRテキスト処理
の流れで試したのですが、
LibreOfficeですと複数画像が挿入できない時点で頓挫しました。。

補足日時:2012/08/19 15:57
    • good
    • 0

そもそも、そんな解像度の低そうな書類をまともにOCRできるのですか。

この回答への補足

ご回答ありがとうございます。

"まとも" の基準は人それぞれでしょうが
上記質問文の通り、少なくとも
私のキャプチャした素材に関しては
1枚単位で問題なくOCRできています。

要は、複数枚のOCR可能な解像度の画像を
如何に効率的にOCRできるかを
ご教授頂きたいのです。

補足日時:2012/08/19 19:58
    • good
    • 0

・GraphicConverterとか、Imagemagick等コマンドラインツールとかを使えば、「手作業」で一枚にする必要はなくなる



・AppleScriptとかAutomatorとかを使えば、他の「手作業」も自動化できるかもしれない。
「画像を一つにまとめる」作業無しにして、画像を1枚ずつOCRで処理することもできるかもしれない。

どこまでできるか、はそのOCRソフトの機能しだい。

この回答への補足

ご回答ありがとうございます!

>>「画像を一つにまとめる」作業無しにして、画像を1枚ずつOCRで処理することもできるかもしれない。

こちらが一番現実的かと思います。
AppleScript、Automatorは別件で
何度かトライしたことがあるのですが
Web上の文献では私には十分理解できませんでした。
もしご存知であれば、わかりやすい参考書などあれば
お手数ですが、お教え頂けると有難いです。
(本屋でも探してみたのですが、
昔の本が多く、購入をためらった経験があるので)

有益な本など無ければ、なんとかバッチ処理する手段を
試しまくろうと思います。

補足日時:2012/08/19 22:56
    • good
    • 0
この回答へのお礼

AppleScript、Automatorはいつか勉強したいです!

質問に対しても、解決法の方向性を示して頂き
大変助かりました。

有難う御座いました。

お礼日時:2012/08/20 09:36

#1です。


webでなくアプリだと言うのは了解しました。
MACで何をキャプチャーしてるかは不明ですが・・・・

ご存知の通りWebは「html」で表示されるので表示後、タグの処理をどうするかで整理できます。
フリーソフトも存在してます。
ところで 何でOCR使うためにPDFの選択されてるのですか?
普通はjpgフォーマットで読めますが・・・・

あっ!
アドビのアクロバット内の「OCR」を使うことを前提にしてませんか?
そうならお望みの事は出来ません。
多数の書類を処理するなら「OCR」のみに特化したソフトを使うべきです。
出来れば有所プノソフトを!

販売店に相談されれば幾つかのソフト紹介してるれます。
    • good
    • 0
この回答へのお礼

ご回答頂き、ありがとうございました。

(新しいソフト好きなので)
「有所プノソフト」が引き続き、気になっております。。

ご協力頂き、誠に感謝申し上げます。

お礼日時:2012/08/20 09:40

>要は、複数枚のOCR可能な解像度の画像を


>如何に効率的にOCRできるかを
Acrobatを使うのでしたら、複数のファイルをバインドして
ひとつのファイルにするだけでは?
    • good
    • 0
この回答へのお礼

度々ありがとうございます!

chieffishさんからのアドバイスをヒントに
下記手順でほぼ理想の結果が得られました。

誠に有難う御座いました☆

==========================
1) Finderで複数のpngファイルを選択
2) 右クリック or コンテキストメニューで
 「このアプリケーションで開く」を選択
3) Acrobat Proを選択
4) ダイアログ表示
 「Acrobat は開いているすべての画像ファイルから
  単一の文書を作成できます。
  すべての画像ファイルを 1 つの文書にまとめますか?」
5) 複数pngファイルが一つのPDFファイルとして開かれる
6) OCR処理を実行
==========================

お礼日時:2012/08/20 09:32

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!