また疑問ができました。
PDFファイルをAdobeReaderで読み込んだ後、PDF
ファイル内の見かけ上は文字を選択ツールから
ドラッグする時、文字の書いてある所をドラッグしても、
文字領域がテキストとしてクリップボードにコピーできる
ものと、同じようにドラッグしても画像(多分BMP)と
してしか文字領域が認識できないものがありますが、
これらのファイルの違いは何なのですか?
最初に読み込むPDFファイルを作成(保存)する時にすでに
PDFでも形式が違う?またその元のPDFかAdobeReader
で開いた後でも何か操作をすれば、画像としてしかコピーできない
ものも、文字領域としてテキストとしてコピーできる様にする事は
出来るのでしょうか?
またそのために何か(特別な)別のソフトが必要なのでしょうか?
長い文章ですみません。PDFは奥が深い(凹)ですね。
どうかよろしくお願いいたします。
No.1ベストアンサー
- 回答日時:
PDFはPortable Document FormatというAdobeが開発したフォーマット形式です。
もともとは印刷用の形式(Postscript)で、どこに(WindowsからMacとか)持っていっても同じような見た目で表現出来る事に大きなメリットがあります。また、見る為のリーダーが無償配布されているので、共通プラットフォームとしてはとても有効です。話が少しそれますが、WEBの共通ファイルのHTMLでは、タグでフォントの大きさや色等を指定していたり、画像があればココにこの大きさで画像を貼る、動画があればココに貼る、というような情報が書かれています。
PDFでは画像ファイルやその他の情報が一つのファイルに埋込まれています。普通やりませんが、PDFファイルをテキストエディタで開けば、テキストが埋込まれている事が分かります。テキスト以外はフォントの大きさや種類、色、位置等、同じ見た目にする為の情報が記録され、画像が貼付けられている場合は、画像の大きさや位置の他、画像のファイル自体(JPEG等)が埋込まれている訳です。
質問者さんの指摘通り、テキストとフォント種類等で書かれている場合はテキストが文字として選択出来ますが、画像の場合は単なる色と点情報でしかないので選択や検索は出来ません。
> 画像としてしかコピーできないものも、文字領域としてテキストとしてコピーできる様にする事は出来るのでしょうか?
出来ません。
意味は全く違いますが、目的を達成するには画像を文字認識させて文字に変換するOCRを使えばある程度自動的にテキストとして取り出す事は可能でしょう。当然、誤認識はあると思います。
参考まで。
この回答への補足
まずはご回答ありがとうございます。
【上記 taketan_mydns_jp さんのご回答】 と言うことは、言い回
しが理解されにくいかもしれませんが、PDFエディタ(仮に具体名
はわかりませんので)に画像を貼り付けてPDFで保存されたもの
と、テキストのデータ、文字を貼り付けると言う表現はおかしいで
すが、文字を直接?打ち込んだものや、テキストエディタなどから
コピペしたものをPDF形式で保存されたものの違いで、
出来上がってReaderでの見た目は同じ「PDF」でも中身の詳細情報
が画像から作成した「PDF」かテキスト(文字)から作成された
「PDF」の違いと言うことでしょうか?
丁寧なご回答ありがとうございました。
まず結論は出来ない、OCRでの処理が必要と言うことですね?
OCRソフトをいくつか試したのですが、文字を出来るだけ忠実に
読み取ろうとしますと、読み取るものの性能や読み込むファイル
自体が見た目でも読みづらいものを取り込んでの変換はかなり時間が
かかったので、では自分の持つ根本のPDFファイルを何とか
できないかと考えて質問までにいたりました(欲を言えば最初の
PDFを作るときに文字でPDFを扱えるように取り込むなりの
処理がしてあるものでしたら良かったのですが・・・)。
また何かありましたらよろしくお願いいたします。
No.2
- 回答日時:
PDFファイルは作成時色々な制限をかけられるようになっています。
制限の内容はファイルを開いて、
ファイル>プロパティ>セキュリティタブで見ることができます。
この回答への補足
ご回答ありがとうございます。
ファイルを開くのはAdobeReaderでよいのでしょうか?
そこでセキュリティがかかっていたりすると制約が出てきたりして
編集などが出来ないようになっているのでしょうね。
そのためのセキュリティーでしょうから。
そこで情報の内容も見ることが出来るか(画像情報であったり、
テキスト情報であったり)確かめてみます。
ありがとうございました。
ものすごく細かなところの設定を知っていれば、設定を変更して
みたり他のソフトで読み直して別形式で保存しなおしたりして
うまくいくかな?とも思いましたが、やはり制約もあるのでしょうね。
考えが甘いですね。
また何かありましたらよろしくお願いします。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(プログラミング・Web制作) python OpenPyXLを使って出力結果をエクセルに書き込み 2 2022/06/04 19:46
- Word(ワード) テキストデータのPDFをWordで開くとテキストが図として認識されてしまう 3 2023/01/24 11:38
- グループウェア 一太郎がイントラで開けません。対処方法を知りたいです。 3 2023/04/04 13:30
- Visual Basic(VBA) エクセルのマクロについて教えてください。 4 2023/05/26 17:13
- PDF ワードで作った文書のPDF化 5 2023/04/10 16:56
- バックアップ パソコンからDVDへコピー 5 2022/08/18 14:02
- PDF PDFに精通した方に質問。JPEGファイル群を一つのPDFファイルにするときの容量変化について 6 2023/07/23 19:06
- PDF 保存したPDFファイルが開けなくなり、困っています 1 2022/09/15 21:08
- Illustrator(イラストレーター) pdfファイルで送られてきた絵や写真だけを消す方法 3 2022/06/19 11:31
- PDF Adobe Acrobat 9 Standard 1 2022/10/16 21:08
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
拡張子tif 印刷が出来ません
-
名前付きで画像を印刷するには...
-
容量の大きいzipファイルの解凍...
-
ゲームMODのpakファイルを開けない
-
右クリック→新規作成→圧縮(zip...
-
免許証をPDFでメール送信
-
DATファイル、削除しても構わない?
-
『.MD2』の画像ファイルを『.JP...
-
エクセルからビットマップへ
-
EXCELデータ保存時にメッセージ...
-
zipにパスワードをかけられない...
-
○○.7z.001~●●.7z.003という圧...
-
圧縮すると容量が増える。
-
解凍した後のZIPファイルっ...
-
メールのアーカイブってどうい...
-
Access97からAccess2013に変換
-
アーカイブファイルではありません
-
CDに焼くファイルをZIP圧縮して...
-
エクセル共有ファイルに保存し...
-
Androidのアプリのclipboxなの...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
拡張子tif 印刷が出来ません
-
名前付きで画像を印刷するには...
-
エクセルファイルが開けないっ...
-
ワードパッド文書のコンビニコ...
-
Word2003 → PDF に変換
-
Word文書中にJPEG画像を貼ると...
-
ExcelファイルのデータをEPS形...
-
PDFファイルを複数合体する。
-
HPで白紙のページにPDFを載せて...
-
PDFの種類について
-
ワードでタブの切り替えのよう...
-
Excelの書類をPDFファイルに...
-
WORD 全ページ ラスタライズ
-
複数枚のページを一個のPDF...
-
RTFって一太郎のこと?
-
ワードの文章をJPEGで保存したい
-
複数人の証明写真を1枚に印刷
-
MS-Office文書(.doc)の仕様って...
-
Wordで作ったファイルをサイズ...
-
マックユーザーにテキストファ...
おすすめ情報