アプリ版:「スタンプのみでお礼する」機能のリリースについて

複合機のスキャナー機能を使い、ワードで作った用紙をパソコンにPDF形式でデータ(文字と表)でおくりました。そしてOCRソフトでワード形式に変換しましたが表がうまく読み取れていません。(文字はだいたい読み取れました)
ちなみにワード2007を使用しています

1、OCRソフトで表を読み込むのは難しいのですか?

2、OCRソフト以外に表を読み取る方法はありますか?あったら教えてください。

お手数おかけしますが回答よろしくお願いします

A 回答 (3件)

OCRではなく、そのままテキストとしてコピーして、適当なテキストエディタでCSVにしてからエクセルなどで読取ります。


[例]
 ⇒履歴書・職務経歴書のサンプル( http://www.workport.co.jp/template/dl.html )
の卒業年早見表のPDFですと、最初の部分をテキストエディタにコピーすると
昭和
31

昭和
32

昭和
33

昭和
34

昭和
35

昭和
36

・・・【以下略】・・・
となりますから、
\n([H,\d]{1}\d)\n ⇒ \1,
と言う風に正規表現をつかってCSVに変更し細かい調整すると

,,生まれた年,,,,,,,,,
,,昭和31年,昭和32年,昭和33年,昭和34年,昭和35年,昭和36年,昭和37年,昭和38年,昭和39年,昭和40年
小学校,卒業3月,44,45,46,47,48,49,50,51,52,53
中学校,卒業3月,47,48,49,50,51,52,53,54,55,56
高等学校,入学4月,47,48,49,50,51,52,53,54,55,56
,卒業3月,50,51,52,53,54,55,56,57,58,59
大学,入学4月,50,51,52,53,54,55,56,57,58,59
,短卒3月,52,53,54,55,56,57,58,59,60,61
,卒業3月,54,55,56,57,58,59,60,61,62,63

になります。これを.csvとして保存して、エクセルで開く。開いてご覧なさい(^^)

★PDFは、あくまで印刷物です。
 元々、UNIXなどのネットワーク上のプリンターで印刷するpostscriptプリンターというコンピューター内臓のプリンターがあり、各コンピューターはpostscriptというテキストデータをプリンターに送るだけで、印刷できてました。Windosのように一台ごとにドライバーをインストールしなくてすむ。このpostscriptを可視化したものがPDFですので・・

 
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

お礼日時:2014/01/15 12:47

> 1、OCRソフトで表を読み込むのは難しいのですか?



単純な表は問題ありませんが、複雑な表や細い罫線の表では困難です。

OCRソフトは、スキャナで読み取った図形を解析し、文字として認識して出力するためのソフトなので、スキャニングの条件(濃淡)によっても差異が発生します。

むしろ、原稿の表の罫線の位置をスケールで読み取り、「表のプロパティ」で「行の高さ」「列の幅」などを指定した方が簡単に短時間で再現できます。


> 2、OCRソフト以外に表を読み取る方法はありますか?あったら教えてください。

残念ながら知りません。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

お礼日時:2014/01/15 12:47

>1、OCRソフトで表を読み込むのは難しいのですか?


紙データしかない場合に利用しますが正しい読み取りは期待できません。

>2、OCRソフト以外に表を読み取る方法はありますか?
他には良いソフトを知りません。

ワードで作成したデータを態々印刷してスキャナーでPDFファイルに変換するのは徳作ではではありません。
更に、それをスキャナーでワード形式に変換するのは無駄の上塗りです。
ワードで作成した文書をそのまま送れば良いのではないでしょうか?
    • good
    • 0
この回答へのお礼

回答ありがとうございます。

お礼日時:2014/01/15 12:48

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!