OCRのしくみ

Question

ＯＣＲで文書をスキャンすると文字を認識して読み込みますが、なぜ画像としてではなく文字として読み込むことが出来るのでしょうか？その原理はどうなってるのでしょうか？ご存知の方がいらっしゃいましたら、教えていただきたいと思います。よろしくお願いします。

Pesuko · Accepted Answer

１）単純な２値化処理（白と黒に分離）もしくは濃淡の変化点から文字の切り出しを行う

文字と背景の分離（文字をひとつの連続した塊として認識しその境界線を探し、矩形でエリアを求める）

２）切り出した文字の塊をベクトル化や交点位置情報や端点位置情報等のデーターベース化した辞書と比べる

３）比べた辞書で一番スコア（似ている）辞書文字を出力する

誤認識として　数字の「８」と英字の「Ｂ」等は変化点が近時の文字は文字の大きさが小さいと分解したときに変化が無いので誤認識しやすい。
たとえば１文字幅が１インチの大きさのとき１０ＤＰＩで取り込めば横は１／１０の枡で区切った方眼紙で表現できるだけの情報量ですが、１００ＤＰＩでとると１／１００で変化が大きくなる。
大きな文字を高分解能でスキャンすれば誤認識率が改善される。

郵便局の郵便番号ＯＣＲは対象文字が０～９までだけなので辞書が少なくすむことと、ＯＣＲ部分だけでも１台数千万円するのでパソコンとは比較しがたい・・・

kuma-ku · Answer

こんばんは
OCR技術の簡単なフローは、以下のような内容です。

1）スキャン
2）スキャンしたデータを文字とそれ以外に分解
3）文字を部首や作りに分解
4）辞書検索
5）文体などから一番近い文字を割り当てる

OCRで重要なものは、もちろん文字認識力なのですが、辞書とそれを検索する検索エンジンが最も重要なのです。

ナチュラルな日本語文章は、文字の配列をパターン化することができません。
そのため、どれほどナチュラルな言葉の辞書を持っているか、それを以下に速く検索し的確に割り当てが行えるか、ここがOCRの重要なポイントです。


一方、住所の認識は実は簡単です。
その理由は、住所は有限(約12万件)で階層化できるため、パターンを決定しやすいからです。
例えば、「東京都」に続く文字列は、東京都○○区に限定されます。文字を多く認識できれば、それだけ精度を高めることができるからです。

参考URL：http://www.hammock.jp/ocr/jp_ocr_04.html

inu2 · Answer

文字として読み込むのではなく、
いったん画像として読み込んで、白(紙)と黒(文字)の違いを識別して、文字の画像部分を解析して、一番近い文字の形を文字データとして保存するってだけです

パソコン向けのOCRはそんなに精度はよくないですが、郵便局などにあるものは化け物的な処理速度と精度があります。

不特定多数の人が手書きで書いた文字を1分間に数万通という速さで処理してるわけですからね(^^)v

OCRのしくみ

１）単純な２値化処理（白と黒に分離）もしくは濃淡の変化点から文字の切り出しを行う

こんばんは

文字として読み込むのではなく、

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング