それもChatGPT!?と驚いた使用方法を教えてください

困っています。

英文のPDFをWORに変換したら、1単語に半角スペースが1~数個入ってしまいます。A4にして30ページなので非常に困っています。
ちなみにPDFから変換する際の文字認識の設定は、

英語(アメリカ)
Clear scan
600

です。どのたか解決方法をご存知ではないでしょうか。

A 回答 (3件)

完全(実用)とはほど遠いですが


文頭にカーソルを置いて
下記のコードを標準モジュールにおいて
実行してみてください。
1ページあたり500個の単語があるとして
さらにそれが1~2文字に細分されていて2000個ほどあるとしたら
30ページで60000個、手動で1個1秒で削除しても24時間ほどかかるので
何分の1かで済むと思います。ただし、実行後に確認で数時間くらい必要かもしれません。

念のためそのファイルのコピーで実行してください。
2文字(スペース込みで3文字以内の場合にスペースを削除します。

sub del()
Selection.Find.ClearFormatting
Selection.Find.Replacement.ClearFormatting

Do
With Selection.Find
.Text = " "
.Replacement.Text = ""
.Forward = True
.Wrap = wdFindAsk
.Format = False
.MatchCase = False
.MatchWholeWord = False
.MatchByte = False
.MatchAllWordForms = False
.MatchSoundsLike = False
.MatchWildcards = False
.MatchFuzzy = True
End With
Selection.Find.Execute
Selection.MoveRight Unit:=wdWord, Count:=1 ', Extend:=wdExtend
If Selection.Words(1).Characters.Count <= 3 Then
If Selection.Words(1) <> "a " Or Selection.Words(1) <> "in " Or Selection.Words(1) <> "of " _
Or Selection.Words(1) <> "or " Or Selection.Words(1) <> "my " Or Selection.Words(1) <> "at " _
Or Selection.Words(1) <> "by " Or Selection.Words(1) <> "us " Or Selection.Words(1) <> "to " Then
Selection.MoveLeft Unit:=wdCharacter, Count:=1
Selection.Delete
End if
End If

DoEvents: DoEvents
Loop

end sub
    • good
    • 0
この回答へのお礼

お返事が遅くなり申し訳ありません。

記載していただいたものは、a, to, atなど頻出するものですね。これを認識するとその単語毎にスペースを識別できる、というものでしょうか。

標準モジュールという言葉を初めて聞いたので今度調べてみます。ありがとうございました。

お礼日時:2013/05/26 22:26

おはようございます



Clearscanで複数ページのPDFを変換すると無作為に多量のスペースが挿入されると言う事例を発見しました。この場合、1ページのPDFを同様にClearscanで変換すると問題は発生しなかったとの事です。
これから判断すると、問題のPDF文書を1ページ単位に分割してClearscanにかければ問題は発生しないのではと思われます。ただし、前処理と後処理が必要になります。

以上はあくまでもClearscanを使用する場合の対応ですが、他の方法としては別の変換ソフトを使用すると言う手もあります。

なお、この30ページの文書のみ変換が必要で、今後は同様な処理を行う事は無いと言うのでしたら、あれこれと試すより手作業で余分なスペースを削除するのが時間的には一番速いです。この場合はスペースを検索・削除する置換処理を行えば、マウスボタンをただ押すだけなので作業は楽です。
    • good
    • 0
この回答へのお礼

お返事が遅くなり申し訳ありません。

一応、原文をコピペして単語列や文字化け対応に3時間くらいかかりました。

また同じ形式のPDFを処理する可能性が高いので、そうなった場合、置換でスペースを消去しようと思います。
あと、1ページ毎にスキャンしてみます。
ありがとうございます。

お礼日時:2013/05/26 22:16

PDFをOCRでWORDに変換ではなく、PDFの文字列を選択してコピー&ペーストでWORDに貼り付けることはできないのですか? 



PDFの文字列を選択できないとか、PDFの文字を画像で作ってるとかだったら、認識のほうはどうにもならないと思うので、WORD変換された文書を、いかに効率的に正しく直すかを考えるほうが早いと思いますね。
    • good
    • 0
この回答へのお礼

お礼が遅くなりまして申し訳ありません。

おっしゃる通り普通にコピペしてみました。

$や!など文字が化けたり単語の順序が変わってしまったりしましたが、30ページ分の文字間のスペースを削除するよりは良かったです。ありがとうございました。

お礼日時:2013/05/26 21:43

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報