プロが教えるわが家の防犯対策術!

過去の試験データ(スキャンデータをExcel様式に変換したもの)の整理をしているのですが、
数が多く上手く省力でタスクをこなせないかと考えております。

成績書内の必要データ
・管理番号
・試験値(複数段組みの表を1行にまとめたい)
なのですが、DocuworksからOCRしたものでは微妙に精度が低く、それぞれの文書で枠線などや行列の幅、座標にバラバラな乱れがある。
数値にも乱れはあるが、そもそもの試験値にパターンがあるので手直しで補正はできるのでそれは無視します。

しかし、行列の前に決まった文言があるので検索などをかけられれば、なんとか抽出出来ると考えております。
ただ、VBAや関数の知識に乏しく、関数や命令を調べて単純な切り貼り程度することしか出来ませんので、ご助力頂きたいのです。
勝手な願い出で申し訳ありませんが、何卒よろしくお願いします。

質問者からの補足コメント

  • 元がスキャンデータのため表に傾きがあったりするので試験値の一部に乱れがあるのですが、.1→tのようになっているだけなので抽出後に置換を行えば修正出来ると思います。
    ただ行列がバラバラなのは、文書の外枠の前に空白行などが出来ていて、それぞれの文書で座標がズレているのです。

      補足日時:2019/02/03 11:51

A 回答 (2件)

> DocuworksからOCRしたものでは微妙に精度が低く、それぞれの文書で枠線などや行列の幅、座標にバラバラな乱れがある。


数値にも乱れはあるが、そもそもの試験値にパターンがあるので手直しで補正はできるのでそれは無視します。
OCRの読取り精度が低く文字認識が出来ないのか?
  
> 行列の前に決まった文言があるので検索などをかけられれば、なんとか抽出出来ると考えております
OCRで読取りは出来ているのか?
   
切り分けをしなければ無理ですよ。
    • good
    • 0

今、私もOCRで取得したExcelの表から、単語を抜き出す作業をずっとしているのですが、


Docuworksが、そんなに精度が悪かったかは別として、まず、Scanner+ OCR 自体の精度を確保をしなければ、その後をいくら処理しようとしても、あまりうまくいきません。

今は、モノクロで、600 dpi が、カラーで、300 dpiが標準です。
Docuworks の組み込みOCRそのものは、何かはわかりませんが、単体に比べて組み込み型はかなり機能が落ちるようです。今は、Scanner に備え付けのOCRでは、まともな製品はひとつもないような気がします。それでも、Docuworks は、評判は悪くないようです。
>・管理番号
>・試験値(複数段組みの表を1行にまとめたい)
英数だけなら、200dpi でも、パーフェクトに近い状態で取得できますが、

>表に傾きがあったりする
最近のOCRは、なぜか、傾き微調整の機能がありません。その代わり、台形(カメラで撮った場合)の処理機能があります。たぶん、これは、pdf 化するための機能なのだろうと思います。

>VBAや関数の知識に乏しく、関数や命令を調べて単純な切り貼り程度することしか出来ませんので、ご助力頂きたいのです。

私は、OCR出力後のマクロを二度も作って、失敗し諦めました。それに、今回の質問内容だけで、マクロは作れません。

今、私は、エディタの正規表現置換を使って確認しながら行っています。
それも、秀丸ではうまくいかず、WZというエディタに切り替えました。
理由は、ふつう正規表現というのは、テスト機能がついているものなのですが、秀丸はぶっつけ本番なのと、メタキャラクタが標準と違う仕様があるようなのです。使いこなせていないのです。

この場合は、
>文書の外枠の前に空白行などが出来ていて、それぞれの文書で座標がズレているのです。
\t →(空白) 
^\s+(\S+)→$1 (\Sのメタキャラクタがない場合がある)
\n\n+ → \n (行をまたいで変換している)空白行の除去

などと、このようにして処理しています。マクロでは、パターンがその都度変わるので、そのためにコードを書き換えたりするのは面倒なはずです。

なにかのお役に立てれば幸いなのですが。
    • good
    • 1
この回答へのお礼

丁寧にご回答を頂きありがとうございました。

自分でも調べながら試してはいましたが、なかなかうまくいきませんでした。

テキストエディタを使う方法がシンプルでいいような気がしますね。
是非とも参考にさせていただきます。
ありがとうございました。

お礼日時:2019/02/05 19:45

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!