dポイントプレゼントキャンペーン実施中!

英語の論文のPDFファイルがあります。これを翻訳ソフトに渡すためテキストに変換したいんです。
しかしPDFから全テキストを選択し、それをテキストファイルにペーストすると、文字列”fi”が” ̄”に、”fl”が”゜”に、”effect”が”eRect”に化けたりします。こういった文字化けの種類が多いので、一括置換機能を使っても全種類置換していくとなると大変手間がかかります。

PDFを正常にテキストファイルに出来るソフトを教えていただけないでしょうか。

A 回答 (2件)

テキストファイルにペーストした時に「文字列”fi”が” ̄”に、”fl”が”゜”に、”effect”が”eRect”に化けたり」するのは、オリジナルの文書において「f」と「l」、「f」と「f」といった2つの文字を合体させて、1つの文字列に置き換えていたためで、


DTPの分野で「リガチャー」と呼ばれる文字送り方法です。
「リガチャー」の実現方法は色々ありますが、ご指摘の症状から言って、懸案のPDFファイルでは外字フォントを用いて実現していたものかと思われます。

原因は以上ですので、PDF文書で使われているのと同じフォントを用いれば表示できる可能性はありますが、それでは人にはわかっても、翻訳ソフトには(文字として)理解できません。

結論としては、PDFファイルをプリントアウトして、それをOCRソフトで認識させて、その結果をさらに翻訳ソフトにかけるといった手順になるでしょうか。
OCRソフトでは「リガチャー」をきちんと認識して、「fl」や「ff」として出力してくれる製品が多くあります。
    • good
    • 0
この回答へのお礼

いったんアナログにしなければいけないんですね。ODRソフトとスキャナを持っていないので今回は出来なさそうですが、原因の推理ともども参考になりました。御回答有難う御座います。

お礼日時:2004/07/06 11:17

こんなものは、いかがどうでしょうか?



●xdoc2txt
http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html

●PDFファイルからテキスト抽出
http://www.twcu.ac.jp/~k-oda/VIRN/JARVI-MLTD/Win …
    • good
    • 0
この回答へのお礼

xdoc2txtは、文字化けの種類は減るのですが「スペース」が無くなり、ほとんどの単語がつながってしまいました。
アドビにメールする方法でも、やはりもじばけしてしまいました。アドビはこんなサービスも行っていたんですね。御回答、参考になりました。

お礼日時:2004/07/06 11:17

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!