A 回答 (9件)
- 最新から表示
- 回答順に表示
No.9
- 回答日時:
今、表計算上のpngファイルを、Google OCRに掛けてみたのですが、レイアウトが取れませんね。
全部、1行のつながりで出てきてしまいました。それを、正規表現で、切り分ける方法はあるのですが、とても、その技術を掲示板上で教えるというまではできないと思います。ただし、Google OCRは、試してみる価値はあると思います。
(やり方は簡単で、一度、Googleドライブに画像ファイルをアップロードしておいて、Googleドキュメントで開くと、自動的にテキストに変換してくれるというものです。だいたいの文字は読んでくれます。)
GoogleのOCRそのものは、日本で一番売れている市販のものと同じぐらいレベルが高いのですが、レイアウト機能がありません。
Renee PDF Aide の場合は、埋め込みデータがないと、外部からOCRエンジンを借りるというような仕組みですから、思ったほど、いえ、補正処理がない分だけ、かなりひどい認識です。
OCRアプリの試用版は、ネットでは出ていますので、それを使ってもよいのですが、昔のエーアイの『読んdeココ』レベルのものは、もう存在しません。昔はライバルだった、eTypist も、思った以上に性能が落ちてしまったようです。今、使えるのは、読取革命ぐらいしかありません。(試用版はWin版のみ)(富士通は、ハード付きですから、おそらくは、ソフトウェアだけでは、力を発揮しないでしょう。)
海外のものは、ほとんどアテにしないほうがよいと思います。中国語と日本語自体が分かってないのではないか、と思えることもあります。Vector でも海外でも、評価の高いABBYY FineReader(日本のOCRの元のエンジン?) も、日本語補正処理が組まれていない以上、Googleの比較にもなりません。それに、14,000円は高すぎます。
今どきは、一頃よりもトーンダウンしましたが、自炊ブームからか、きれいな画像ファイル(300dpi以上)なら、こんなことは朝飯前のような人たちもいます。その手の業者さんもいますから、ネットの中だけではなく、いくつか思うところを当たってみる方法もあるかと思います。
最後に、事情がよく分からないので、間違ったらすみませんが、本来、今、お持ちなのは画像ファイルだけですから、その元のオリジナルがあるはずだと思います。それをお願いして分けていただくかしたほうがよいと思います。
p.s. 私は、今はもう能力的に落ちてしまいましたが、会社で1,000件ぐらいの住所データの打ち込みは、1日の内半分ぐらいを使って、3日で入力してしまいました。当時は、電話や郵便番号から住所を出すというようなプログラムはありませんでした。私の知り合いだったマンパワーの人たちも、そのぐらいは苦労しないでやってしまいます。
人がやれない量ではありません。20代とか30代の人に限るかもしれませんが。
No.7
- 回答日時:
以下のサイトに画像ファイルから日本語テキストを抽出してくれるサイトの紹介があります。
一度、ためされては、いかがでしょうか?excel形式での出力も可能です。
(申し訳ありませんが、私は試してませんので、自己責任で行ってください)
http://nelog.jp/online-ocr
No.6
- 回答日時:
No3です。
>・手書き文字ではありません。
>・おそらく表計算ソフトで、パソコンによって入力した文字と思われます。
それであれば、OCRの読み取り精度が期待できるので、私は使ったことはありませんが、
OCR機能を搭載し、画像内の文字列をテキスト化することも可能なPDF変換ソフト
http://www.vector.co.jp/magazine/softnews/150501 …
など試されたらいかがでしょう。
解説には「Office文書やHTMLファイルに変換してくれる」とあるので、解決策1のプログラムに近い感じのフリーソフトの感じがします。
回答ありがとうございます。
当方macを使用しておりますので、「Renee PDF Aide 」は利用できないようです。
mac対応のOCRソフトを探してみます。
No.5
- 回答日時:
「PDFファイル」について誤解があるようなので説明しておきます。
「PDFファイル」の場合ですが文字については文字として保存している場合(文字コードとフォント名など)と形(アウトラインや画像)として取り込んでいる場合があります。
ご提案の「PDF Excel 変換」ではOCR機能が無い様で、前者は文字として戻すことが出来ますが、後者は文字として変換できませんでした。
実験のため、お持ちのpngファイル『連絡先リスト(住所、電話番号、メールアドレス)』をエクセルに貼り付けてPDF出力したものと、手入力した物をPDF出力したものとを、それぞれ「PDF Excel 変換」してみればわかると思いますよ。
回答ありがとうございます。
「PDF Excel 変換」そのもので、今回のファイルが変換できないことは了承済です。
「PDF Excel 変換」はあくまでも一例としてあげさせていただきました。
『「文字として保存」されているPDFを 「PDF Excel 変換」と使って変換するの同様のイメージ』で
pngファイルをExcelに変換できるような方法がないか?
というのが趣旨です。
No.4
- 回答日時:
念のためじゃないよ
根本的に情報が不足している、決定的に不足している
文章をPDF化したものなら、PDFからの変換もある程度可能性があるが
画像データをPDF化したところで無理な相談
力尽くでやってください
でなければ、文字データを画像化した人間に元データを貰ってください
そう言う手段が執れないということは、貴方は善からぬ事を考えていると見なすべきだと思いますね
>念のためじゃないよ
>根本的に情報が不足している、決定的に不足している
ご自身で、「それとも、世の中には画像フォーマット以外の有名なpngファイルが有るのだろうか・・・・」
とおっしゃっているではありませんか・・・。
一般的にpngファイル=画像ファイルです。
この掲示板で回答できる程度のITリテラシーある方に
あえて、「pngファイル=画像ファイル」なんて説明必要とは考えませんでした。
さらに念のため、勘違いがないように説明すると、
今回の「画像ファイル」=「写真」ということではありません。
拡張子はpngですが、中身としては、連絡先リストです。
おそらく、グーグルスプレッドシートか、エクセルをキャプチャしたものだと思います。
ファイルによっては、「PDF Excel 変換」(https://smallpdf.com/jp/pdf-to-excel)などで、実際に出来ているので、
決して、「無理な相談」だと思っていません。
>文字データを画像化した人間に元データを貰ってください
当然ながら依頼しました。
依頼したところ、
「エクセルデータのようなものを、キャプチャしWEBにアップしたらしいが、大元のデータの所在がわからない。
すぐに用意はできないので、今ある閲覧できるデータを活用してください。」
とのことで、今回の質問です。
No.3
- 回答日時:
>Excelの各セルに手動入力以外の方法で表示させたいという質問です。
私が思いつく解決策は、
1)文字認識のOCRソフトを使って文字に変換して、Excelの各セルに張り付けるというプログラムを作成する、
2)自分で作成できないなら、プロに作成依頼する
3)プロに作成依頼する仕様書を書くのが面倒であれば、文字入力の代行業者に作業依頼する
かでしょうね。
結論としては、入力項目数が(たとえば1000件を超すような)多量でないならば、
質問者さんがご自分で各セルに手動入力
するのが、一番簡単確実な解決策と思います。
多量であっても億とか兆とかにならない、人力で処理可能な範囲であれば、
解決策3)が一番安価な解決策ではと思います。
回答ありがとうございます。
1200件ほどあるので、自力入力は選択肢には無いと考えています。
3)も検討し、クラウドワークスで募集かける直前までは下書きしていたところです。
(https://smallpdf.com/jp/pdf-to-excel)ような既存サービスがあるので、
同様になるべくシンプルにPNG→PDFに変換できないかなと考えていました。
上記サービスで、「PDF Excel 変換」の機能はあるので、
元ファイルを一旦PDFに置きかえ、アップロードを試してみましたが、
エラーとなり駄目でした。
No.2
- 回答日時:
「pngファイルを」
pngファイルって何ですか?
ぱっと見で、画像ファイルの事かと思うのだが
でも、連絡先情報ということは画像じゃないんだよね?
pngファイルなるモノの正体が分からない限り、答えは出ない
それとも、世の中には画像フォーマット以外の有名なpngファイルが有るのだろうか・・・・
>画像ファイルの事かと思うのだが
>でも、連絡先情報ということは画像じゃないんだよね?
画像ファイルです。
連絡先リスト(住所、電話番号、メールアドレス)記載された画像ファイルとしてあります。
このままでは使い勝手が悪いため、
Excelの各セルに手動入力以外の方法で表示させたいという質問です。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
このQ&Aを見た人はこんなQ&Aも見ています
-
ちょっと先の未来クイズ第2問
9月9日(月)に発表される「第3回子どもマネー川柳」に入賞する川柳を考えてこちらに投稿してください。
-
フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
あなたが普段思っている「これまだ誰も言ってなかったけど共感されるだろうな」というあるあるを教えてください
-
映画のエンドロール観る派?観ない派?
映画が終わった後、すぐに席を立って帰る方もちらほら見かけます。皆さんはエンドロールの最後まで観ていきますか?
-
海外旅行から帰ってきたら、まず何を食べる?
帰国して1番食べたくなるもの、食べたくなるだろうなと思うもの、皆さんはありますか?
-
天使と悪魔選手権
悪魔がこんなささやきをしていたら、天使のあなたはなんと言って止めますか?
-
「○月度」という表現は正しいですか?
その他(ビジネス・キャリア)
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・人生のプチ美学を教えてください!!
- ・10秒目をつむったら…
- ・あなたの習慣について教えてください!!
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・【大喜利】【投稿~9/18】 おとぎ話『桃太郎』の知られざるエピソード
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
BUP・IFO・VOBをMACで開きたい。
-
DTCP-IPファイルをmp4などに変...
-
写真を撮ってxml形式にしたい場合
-
.isoファイルをyoutubeにアップ...
-
拡張子OA2のファイルをWord2010...
-
mac です。vob ファイルを mp4 ...
-
自動でpdf化したい
-
iTunesへ取り込んだ音楽の曲名...
-
MIDI -> MML
-
AudacityでMP3をMIDIに変換
-
ISOファイルをMP4ファイルへ変...
-
.mpgファイルを.isoに変換する...
-
MP3ファイルをMIDIファ...
-
午後のこ~だwaveを変換できな...
-
rarファイルをzipファイルに一...
-
MP3をWAVEファイルに変換するや...
-
パーソナル編集長で作成したフ...
-
MPEG2のビデオファイル(拡張子...
-
MT4のEX4ファイルをMQ4ファイル...
-
三四郎ファイル を エクセルフ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
写真を撮ってxml形式にしたい場合
-
CAD ZSD→DXF変換
-
mac です。vob ファイルを mp4 ...
-
DTCP-IPファイルをmp4などに変...
-
「.rtf」の拡張子が開けないの...
-
BASE64のエンコード時のサイズ...
-
BUP・IFO・VOBをMACで開きたい。
-
AudacityでMP3をMIDIに変換
-
三四郎ファイル を エクセルフ...
-
WAVファイルの周波数変換方法を...
-
いきなりPDFで文書の切り取り
-
DXFからJWWに一括変換す...
-
自動でpdf化したい
-
拡張子OA2のファイルをWord2010...
-
写真ファイルJPGをDCF形式にし...
-
word作成書類を文面が崩れない...
-
DMRファイルをmpegやwavに変換...
-
ビットマップの色数を変更する...
-
xdwファイルをPDFファイルに変...
-
MT4のEX4ファイルをMQ4ファイル...
おすすめ情報
説明不要かと思いますが、念のため、補足いたします。
pngファイルとは画像ファイルのことです。
元となる、pngファイル『連絡先リスト(住所、電話番号、メールアドレス)』について
細かく説明します。
・元とのなるpngファイル(pngファイル画像データです。)は写真ではありません。
・手書き文字ではありません。
・おそらく表計算ソフトで、パソコンによって入力した文字と思われます。
・リストは住所、電話番号、メールアドレスは 横3マス✕縦1200マスの「表」に なっており、黒い線で囲まれています。