あけましておめでとうございます。

PDFの中のデータをテキストファイルに移行しようとしてコピペや、テキストとして保存しようとするのですが、すべての文字が、
・・・・・・・・に文字化けしてしまいます。
なぜこうなるのか、まったく私にはわかりません。

どなたかお詳しい方、お助けください。

よろしくお願いいたします。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

>また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。



やってみましたが文字データは無い様ですね。1バイトの空白だけがコピーされます。
JustPDF変換もやってみましたが、文字データは変換されませんでした。
やさしくpdfOCRで文字認識をした結果、文字認識はされました。
どうも何か仕掛けがしてあるようですね。
Justpdf編集などのpdf編集ソフトを使ってデータを調べてみないと詳細は分からないと思います。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
PDFのプロパティを見ても、私には解析する知恵を持ち合わせていませんので、わかりませんでした・・・
残念です。

せっかくの元日のお休みのところ、時間を割いていただき本当にありがとうございました。

お礼日時:2009/01/04 12:35

うーん、私も無理でした。


これは東洋経済社発行の会社四季報CD-ROMのデータですね。

簡単にコピー出来るようだと出版社としては困りますので、コピーや再配布を防止するために細工がされているようです。
一種の著作権保護と思って下さい。
もしかしたら文字化けではなくて、ダミーで初めから・・・・・・を透明テキストとして付けてあるのかもしれません。
    • good
    • 0
この回答へのお礼

お察しの通りです。
確かにダミーを入れている可能性がありますね。
OCRで何とか認識しますのでせっせとそこから構築するほかないようです。

東洋経済の了見の狭さには辟易してしまいます。
競争相手が少ない弊害ですね。
テキスト保存する理由は、四季報程度の解析機能じゃ不十分だから自分で解析せざるを得ないからなのに、それを拒むなんて・・という思いはあります。
前よりはめんどくさくなりますがせっせとデータ作成いたします。




ありがとうございました。

お礼日時:2009/01/04 13:04

全ての文字がjis非対応のunicode対応文字で、かつペースとしたソフトがunicodeに対応していない場合はそうなります。


しかし、現実にはそういうケースは珍しいですね。
何か他に原因が有るかもしれないです。
どのpdfファイルでも発生するのか?
そのpdfファイルを他のパソコンでコピーアンドペーストした場合はどうなるのか?
もう少し情報集めをお願いします。

この回答への補足

ご回答ありがとうございます。


ほかのパソコンでもできないようです。
また、ほかのPDFファイルは普通にコピペできるのですが、これはまったくだめです。

そのファイルをアップロードいたしますので、もしよろしければ見て頂けるとありがたく存じます。(ウイルスチェックはしております)

http://stoc.as.wakwak.ne.jp/cgi-bin/d.cgi?c=SorG …
よろしくお願い申し上げます。

補足日時:2009/01/02 20:00
    • good
    • 0

このQ&Aに関連する人気のQ&A

このQ&Aと関連する良く見られている質問

Q文字化けメールの修復方法は?

文字化けメールが届いてしまいました。
エンコードの問題ではないようです。修復する方法はありますか?

Aベストアンサー

以下のHPで、もしかしたら読めるかもしれません。

参考URL:http://www.kanzaki.com/docs/jis-recover.html

QPDFファイルの文章をコピーしてワード文書に貼り付けようとしたら文字化けします。

PDFファイルの文章をコピーしてワード文書に貼り付けようとしたら文字化けします。
改善方法を知っている方教えて下さい。

Aベストアンサー

Wordで、「編集」→「形式を選択して張り付け」→「テキスト」のラジオボタンをオンにして「OK」を押してみてください。

Q文字化けしたテキストファイルをもとに戻す

紙copi を使用して文字化けしてしまいました。
問い合わせると、
『文字コードUTF-8のファイルですが、改行コードが「LF」となっております。
紙copiではどの文字コードファイルについても新規ファイル作成時には一律に
「CR+LF」の改行コードにて保存しますので、新規作成時に「LF」の改行コード
ファイルが作成されることは通常ないものと考えております。』

で、改行コードが「LF」のテキストファイルを「CR+LF」の改行コードのものに
戻す方法がありますか?
よろしくお願いします。

Aベストアンサー

数が少ないなら

LF,CR+LF両方に対応しているテキストエディタで開く

場合によっては行末が[CRの文字][改行]となっているので、置換をつかってCRを削除する

改行コードCR+LFとして保存


数が多いなら、改行コード変更ツールは沢山あります。Vectorや窓の杜あたりで探してください。
簡単に自作もできます。

QPDFのテキストのコピーが「・・・」に化けてしまいます

PDFファイルで「テキスト選択」はできるのですが、
EXCELでもテキストファイルでも、貼り付けると、
すべて「・・・・」としか表示されません。

どうも、文字数はあっているようなのですが、
文字としてコピーできていません。

バージョンは、Adobe Reader 6.0 で、
OSは、ウィンドウズ98SEです。

文字ではなく、アウトライン=絵として保存されているの
なら諦めますが、何が何だかわからなくて、非常に困って
います。
どなたかアドバイスをお願い致します。

Aベストアンサー

Adobe Readerの「ファイル」→「テキストとして保存」を実行し
ても、文字化けしているテキストしか作成されないでしょうか?
おそらくPDF作成時の問題(プリンタドライバの設定やPDF作成
の方法)だと思いますので、再度作成し直さないとコピーした
テキストを使用できるようにはならないのではと思います。
東京都のPDFファイルというのは、一般公開されているもの
でしょうか?
一般公開されているのでしたら、そのページのアドレスと
ファイル名を教えていただければ、私も自分で確認してみ
たいのですが...(^^;

http://support.adobe.co.jp/faq/faq/qadoc.sv?219039+002
※古い情報になりますが、このページでType1フォント
は検索に確実性があるフォントと説明されています。
(PDF文書内を検索できる場合は、コピーしたテキストも
きちんと認識されて文字化けしないようです。)
※Type1フォントのPDFファイルでも検索できないものが
作成されましたので、アプリケーションや設定によって
異なる場合もあるようです。

Distillerで作成したPDFの場合は、設定や手順が正しけ
ればきちんと検索・コピーしたテキストを再利用できる
ファイルになるはずですので、もし再変換をお願いでき
る場合は、相手の方に再度PDF作成を依頼してみては
いかがでしょうか?


以下のページは、Acrobat DistillerでPDFを作成する
場合の各種設定方法です。

・変換元のアプリケーションからAcrobat Distiller
プリンタに印刷し、直接PDFファイルを作成する場合
http://support.adobe.co.jp/faq/qadoc/AJ25.nsf/10078dba5304a487492569690008402a/fa6504813e4f87b149256d05002578ee?OpenDocument

http://support.adobe.co.jp/faq/qadoc/AJ25.nsf/041584e8dbf36c09492569690008402c/6c802d35efee64f949256aa10025f979?OpenDocument

http://support.adobe.co.jp/faq/qadoc/AJ25.nsf/10078dba5304a487492569690008402a/596dc745a7eab02949256b3900259188?OpenDocument

・変換元のアプリケーションからAcrobat DistillerプリンタでいったんPostScriptファイルに書き出す場合
http://support.adobe.co.jp/faq/qadoc/AJ25.nsf/041584e8dbf36c09492569690008402c/5dc572c40f8ec43549256c230027ed2c?OpenDocument

http://support.adobe.co.jp/faq/qadoc/AJ25.nsf/10078dba5304a487492569690008402a/349e6a2937bb924349256b9c002975c4?OpenDocument

Distillerの場合は、特別なことをしなければたぶん
コピーしたテキストを再利用できるPDFが作成される
と思いますが、可能な限りいろいろな方法で試しても
らうと良いです。
仕事相手などではなくて、一般公開されているデータ
ファイルの場合は無理だと思いますので、残念ですが
諦めるしかないと思います。
ダウンロードページを公開できるのでしたら、私も試
してみたいのでよろしくお願いします。m(__)m


※No.1でWin98SEでPrimoPDFを使用して作成した場合
は、コピーしたテキストが文字化けすると書きましたが
設定で回避できるかもしれません。
(コントロールパネルからPrimoPDFのプリンタドライバの
設定を開いて、「fonts」タブの左下にあるボタン(表示さ
れている項目名は見えないので?)を押して、TrueType
フォントの送信方法を「Outlines」から「Type42」に変更し
ます。)
※ただし、私の環境ではこの設定変更をするとPrimoPDF
が起動せずにフリーズしますので確認できていません。

今回のご質問とは関係ないようですが、回答に間違いが
あったかもしれませんので、ここで補足します。

Adobe Readerの「ファイル」→「テキストとして保存」を実行し
ても、文字化けしているテキストしか作成されないでしょうか?
おそらくPDF作成時の問題(プリンタドライバの設定やPDF作成
の方法)だと思いますので、再度作成し直さないとコピーした
テキストを使用できるようにはならないのではと思います。
東京都のPDFファイルというのは、一般公開されているもの
でしょうか?
一般公開されているのでしたら、そのページのアドレスと
ファイル名を教えていただければ、私も自分で確認してみ
たいのです...続きを読む

Qoutlookの文字化け

Macでoutlookを使っています。
Jフォンからのメールでたまに全文が文字化けして再送して
もらっても文字化けして読めない事があります。
docomoやauは一部文字化けする事はあっても全文ではありません。
Netscapeで受信し直すとある程度は読めるんですが、一部
文字化けします。
それを自分宛に転送してoutlookで受信する時に、添付ファイルとして
転送すると文字化けしてしまいますが、本文として転送すると一部
文字化けしていた部分も直って読めます。
outlookでの設定は日本語(自動判別)になっていて、Netscapeは
日本語(シフトJIS)になっていたので、outlookもシフトJISに
変えたのですが、直りません。
outlookで文字化けしない件名がNetscapeで文字化けしている
事もあります。
検索したらWinの設定方法はたくさんあったのですが、Macの設定方法が
わからないので教えて下さい。

特殊文字について、???というのを受信すると???になって
しまうのですが、正しく受信する事はできないのでしょうか。
自分から自分へ試しに送ってみたら、送信の時に「表示できない
文字が含まれてます」というメッセージを無視して送ると
きちんと???で受信できるのですが、日本語JISを選択しなおして
送ると?になってしまします。
WinからのメールをMacで文字化けしない設定はありますか。

Macでoutlookを使っています。
Jフォンからのメールでたまに全文が文字化けして再送して
もらっても文字化けして読めない事があります。
docomoやauは一部文字化けする事はあっても全文ではありません。
Netscapeで受信し直すとある程度は読めるんですが、一部
文字化けします。
それを自分宛に転送してoutlookで受信する時に、添付ファイルとして
転送すると文字化けしてしまいますが、本文として転送すると一部
文字化けしていた部分も直って読めます。
outlookでの設定は日本語(自動判別)になってい...続きを読む

Aベストアンサー

>ブラウザもNetscapeではちゃんと表示される○付数字がIEでは文字化けしてしまうので、

これは機種依存文字と言うもので○付き数字は本来使ってはいけないものなのですがあまりにも多くのページで使われていますね。
マックのソフトにも問題はあるとは思いますが正式なルールを守らないページを創っているところにも問題があるんです。メールの文字化けも実際にはインターネットでの送信のルールに従っていないために起きている物なのです。

QPDFから文字化けしないテキスト変換方法は?

スキャンスナップで自炊したPDFファイルをOCR処理や文字をメモ帳にコピペしテキストファイル化すると、どうしても文字化けしてしまいます。保存の形式も色々と試しましたが中国語みたいな漢字に変換や文字抜けが発生します。文字化けしない良い方法はありますか?ご教示よろしくお願いいたします。

Aベストアンサー

自炊だとテキスト情報はOCRで生成するわけですが、OCRの認識率が100%じゃない以上は文字化けなどはどうしても発生してしまいます。いまどきのOCRなら99%かそれ以上の認識率はあるでしょうけど、99%だって100文字読んだら1文字は間違える計算になり、まとまった量の文字を読ませれば結構な誤読が発生してしまうことに。

テキストをコピペする方法にかかわらず、元になるテキストに誤読があるわけだから、いかなる方法でコピペしようと文字化けは回避不可能です。気が付いた時点で「必殺・全手動修正」を発動させるしかありません。

出来上がりのファイルサイズを小さくするために、取り込みの時の解像度を下げすぎると誤読が増えやすいので、ここはあまりケチらない方が良いかとは思います。面倒だけど、見た目や認識率、ファイルサイズのバランスを取れる設定を試行錯誤する必要があるでしょう。

Q文字化けって英語で・・・? 

仕事で外国からのメールを受ける事がしばしばありますが、
時々名前などが文字化けしているメールを受け取ります。
本文は英語で書いてくれているのでいわんとすることは分かるのですが、
文字化けでお名前がわからないということなどを相手に伝えたいときは
英語ではどのように表現するればよいでしょうか?
また、文字化けとは英語でどういうのでしょうか?

Aベストアンサー

文字化けそのものを知っている相手(1 バイト文字の国の人)には "The page turned into garbage." と言いました。うちの会社だけだったかもしれませんが (^^;;
aqua さんが書かれているように、相手も 2 バイト文字の国の人でしたら、"Japanese fonts don't support the characters at the bottom of your e-mail. Would you mind writing it in English?" など、「日本語のフォントでは対応していない文字です。」と伝えてはいかがでしょうか。

Qpdfのフォントを変更する方法

既存のpdfを編集してフォントを変更する方法はあるのでしょうか。
作成時に変更、埋め込みするのではなく、作成後のpdfのフォントの変更方法、フォントの埋め込み方を教えてください。

osはxpsp2、Acrobat7を所持しています。

Aベストアンサー

ツール→高度な編集→TouchUpテキストツール
で、変更したいテキストを選択する。
右メニュー→プロパティ→テキストタブのフォント項目で変更可能です。

編集後に、別名保存します。
(上書き保存だとファイルサイズが増えますので、別名保存で不要なデータを自動削除し、保存されます。)

Q文字化けの解読方法について

機種はWin.xpを使っています。
gooメールの文字化けについて教えて下さい。
オークションのやり取りで、受信メールが文字化けしてしまい、読めません。相手にもう一度お願いしたのですが、また文字化けしています。相手は全て読めている様子。
解読方法はありますか?
今までHTML形式、テキスト形式の違いを知らないままHTML形式でメールをやっていました。
今まで文字化けする事は1度もなく初めてです。
流れとして、HTML形式で私から送信しReで相手が返事をくれた(これは読めました)そして私が再Reで送る時テキスト形式に変更して(意味もわからず)送った、その後の返事から文字化けがはじまりました。

Aベストアンサー

3番です。

まずこちらのページを開きます。
http://www.geocities.jp/belden_dr/ToolMBaker.html

そのページの「(3) ダウンロード」の少し下にある「Download MBaker2V2081.lzh」をクリックし、指示に従い、デスクトップなどにダウンロードします。

そのファイルを解凍します。
解凍の方法はこちら。
http://oshiete1.goo.ne.jp/qa656674.html

解凍してできあがったファイルをダブルクリックするとソフトが立ち上がります。

文字化けしたメールを開き、文字化けした部分全体を選択してコピーします。

文字化け解読ソフトの窓の上で右クリックし、貼り付けを選択すると、文字化けしたままの状態で張り付きます。

ツールバーにある「AUTO」「JIS1」などのアイコンを順に押してみると、どれかで見事に文字化けが解消する(はずです)

以上です。

QPDF をワードやエクセルに変換すると文字化けする

よろしくお願い致します。

PDF をワードやエクセルに変換すると文字化けするのは何故でしょうか?
卒業文集の文章を、ブラザーの複合機でスキャンしpdfにしました。
それを変換ソフトを使って(変換中ocrと表示されます)ワードやエクセルにすると
文字化けしてしまいます。

どうにか文字化けしないようにするにはどうしたら良いでしょうか?
ご教授下さいませ。

Aベストアンサー

>PDF をワードやエクセルに変換すると文字化けするのは何故でしょうか?

何故でしょうって、そりゃOCRの宿命だから。

紙に印刷された白黒のパターンをもとに、何千字という辞書から正しいと考えられる文字を探すんですよ。
一文字も間違わない方が、むしろ不思議です。


もともとbrotherの添付ソフトであるプレストのOCRは認識率が低いです。


とりあえず、そんなに小さな字でなければ解像度を300-400dpiで固定し
原稿濃度を濃くしたり薄くしてスキャンして、一番認識率が高い(誤認識:文字化けの少ない)
コンディションを探してください。

きれいな原稿を用意するのも、認識率を高める一つの手です。

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード


人気Q&Aランキング