過去の試験データ(スキャンデータをExcel様式に変換したもの)の整理をしているのですが、
数が多く上手く省力でタスクをこなせないかと考えております。
成績書内の必要データ
・管理番号
・試験値(複数段組みの表を1行にまとめたい)
なのですが、DocuworksからOCRしたものでは微妙に精度が低く、それぞれの文書で枠線などや行列の幅、座標にバラバラな乱れがある。
数値にも乱れはあるが、そもそもの試験値にパターンがあるので手直しで補正はできるのでそれは無視します。
しかし、行列の前に決まった文言があるので検索などをかけられれば、なんとか抽出出来ると考えております。
ただ、VBAや関数の知識に乏しく、関数や命令を調べて単純な切り貼り程度することしか出来ませんので、ご助力頂きたいのです。
勝手な願い出で申し訳ありませんが、何卒よろしくお願いします。
No.1
- 回答日時:
> DocuworksからOCRしたものでは微妙に精度が低く、それぞれの文書で枠線などや行列の幅、座標にバラバラな乱れがある。
数値にも乱れはあるが、そもそもの試験値にパターンがあるので手直しで補正はできるのでそれは無視します。
OCRの読取り精度が低く文字認識が出来ないのか?
> 行列の前に決まった文言があるので検索などをかけられれば、なんとか抽出出来ると考えております
OCRで読取りは出来ているのか?
切り分けをしなければ無理ですよ。
No.2ベストアンサー
- 回答日時:
今、私もOCRで取得したExcelの表から、単語を抜き出す作業をずっとしているのですが、
Docuworksが、そんなに精度が悪かったかは別として、まず、Scanner+ OCR 自体の精度を確保をしなければ、その後をいくら処理しようとしても、あまりうまくいきません。
今は、モノクロで、600 dpi が、カラーで、300 dpiが標準です。
Docuworks の組み込みOCRそのものは、何かはわかりませんが、単体に比べて組み込み型はかなり機能が落ちるようです。今は、Scanner に備え付けのOCRでは、まともな製品はひとつもないような気がします。それでも、Docuworks は、評判は悪くないようです。
>・管理番号
>・試験値(複数段組みの表を1行にまとめたい)
英数だけなら、200dpi でも、パーフェクトに近い状態で取得できますが、
>表に傾きがあったりする
最近のOCRは、なぜか、傾き微調整の機能がありません。その代わり、台形(カメラで撮った場合)の処理機能があります。たぶん、これは、pdf 化するための機能なのだろうと思います。
>VBAや関数の知識に乏しく、関数や命令を調べて単純な切り貼り程度することしか出来ませんので、ご助力頂きたいのです。
私は、OCR出力後のマクロを二度も作って、失敗し諦めました。それに、今回の質問内容だけで、マクロは作れません。
今、私は、エディタの正規表現置換を使って確認しながら行っています。
それも、秀丸ではうまくいかず、WZというエディタに切り替えました。
理由は、ふつう正規表現というのは、テスト機能がついているものなのですが、秀丸はぶっつけ本番なのと、メタキャラクタが標準と違う仕様があるようなのです。使いこなせていないのです。
この場合は、
>文書の外枠の前に空白行などが出来ていて、それぞれの文書で座標がズレているのです。
\t →(空白)
^\s+(\S+)→$1 (\Sのメタキャラクタがない場合がある)
\n\n+ → \n (行をまたいで変換している)空白行の除去
などと、このようにして処理しています。マクロでは、パターンがその都度変わるので、そのためにコードを書き換えたりするのは面倒なはずです。
なにかのお役に立てれば幸いなのですが。
丁寧にご回答を頂きありがとうございました。
自分でも調べながら試してはいましたが、なかなかうまくいきませんでした。
テキストエディタを使う方法がシンプルでいいような気がしますね。
是非とも参考にさせていただきます。
ありがとうございました。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- Excel(エクセル) Excelマクロ 差分抽出の方法が知りたいです。 2 2023/03/07 13:25
- Visual Basic(VBA) vba 等間隔の列に対しての計算 6 2022/05/17 20:15
- Excel(エクセル) Indirect関数について、Formulatextで抽出した数式を参照したい。 1 2022/12/15 11:16
- Excel(エクセル) 関数EXACT(文字列,文字列)とexcelVBA 3 2022/04/14 15:07
- その他(プログラミング・Web制作) 入力フォームへ、データを自動的に入力するプログラム。どうやって作る? 4 2023/01/16 10:24
- Visual Basic(VBA) Excel 関数 またはマクロ、VBA 5 2022/08/16 11:15
- ソフトウェア エクセル_データ処理_変化点検出について 1 2022/09/20 18:25
- その他(Microsoft Office) Excel2019と365、2021 2 2023/07/08 06:22
- その他(職業・資格) 高卒認定試験の勉強法、難易度について 2 2023/04/04 00:01
- Visual Basic(VBA) 3つのプロシージャをまとめたら実行時エラー発生で対応不能 6 2022/05/17 01:47
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
グラフの交点の求め方(Excel)
-
c言語でキーボードから2点の座...
-
交差する2線分の交点座標の求め方
-
MATLABの画像処理、2本の直線の...
-
マインクラフト(pc版)で座標...
-
ガウシアンフィルタのCプログラム
-
回転する矩形同士の当たり判定...
-
位置座標からx軸となす角度(ラ...
-
エクセルである点からの距離で...
-
ピクチャボックスの座標取得
-
虚数は我々日常生活の身近なと...
-
Excel VBA ・・・教えてください
-
始点、終点の二つの座標と半径...
-
プログラミングの問題について...
-
visualbasic でform上に正三角...
-
画像回転について
-
C アルゴリズム(モンテカルロ法)
-
スクリーン座標からワールド座...
-
重力の計算
-
PPTのVBA スライド右下端の座...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
グラフの交点の求め方(Excel)
-
マインクラフト(pc版)で座標...
-
エクセルで回転する座標の出し方
-
エクセルである点からの距離で...
-
3次元空間上の2つの座標から...
-
閉図形の座標の配列が右回りか...
-
ダイアログ内コントロールの位...
-
始点、終点の二つの座標と半径...
-
座標を持った平面範囲に座標を...
-
空間上の二点を結ぶ直線上に任...
-
エクセルシート上のマウスポイ...
-
多角形の内部かどうか判定する方法
-
ワード上Shapeの位置情報を統一...
-
Excel VBA で自在に図形を変化...
-
OpenCvSharp4による画像判定解...
-
C言語 配列で座標
-
シーケンサー(PLC?)で制...
-
以下のプログラムは重心を求め...
-
交差する2線分の交点座標の求め方
-
VB6のPrinter.ScaleWidth に対...
おすすめ情報
元がスキャンデータのため表に傾きがあったりするので試験値の一部に乱れがあるのですが、.1→tのようになっているだけなので抽出後に置換を行えば修正出来ると思います。
ただ行列がバラバラなのは、文書の外枠の前に空白行などが出来ていて、それぞれの文書で座標がズレているのです。