新生活を充実させるための「こだわり」を取材!!

Acrobat6.0Prof.を用い、テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと、超拡大表示(例:6400倍)してもエッジがギザギザにならず鮮明に表示されるからで、これは明らかにアウトラインフォントと思われます。
このような「テキスト」を抽出する方法について知りたい。

教えて!goo グレード

A 回答 (7件)

通常、フォントのデータは文字コードだけ記されています。


それをシステムに同じフォントがあればその文字コードを
元にして表示します。
同じフォントがシステムにない場合、表示できませんので
アプリケーション側で違うフォントに置き換えるようなア
ラートが出て違うフォントで表示することになります。
その場合、レイアウトが崩れるので、PDFファイルにする
時にフォントの埋め込みというのをしてPDFファイルを作成
すれば、相手先のシステムにフォントが無くても同じレイ
アウトで表示する事ができます。
ただし、フォントによっては埋め込む事を許可しないフォ
ントもありますので、その場合、フォントをアウトライン
化して絵として貼り付けます。この絵はビットマップでは
ありませんので、拡大してもギザギザにはなりません。
(ドロー系とかベクトル系の絵です)
    • good
    • 0
この回答へのお礼

何回も有り難うございます。
当該pdfファイルは、アドビのInDesignを使ったらしく、仰せのとおりpdf化する前にテキストをアウトライン化している模様です。印刷屋にテキストファイルを求めるか、OCR原理でテキスト化するソフトを利用するか、考えています。

お礼日時:2006/02/01 05:49

同じ文章中でと書かれていなかったので、1の回答となりました。


そのテキストがアウトライン化(文字を絵にするということです)
してあるために選択できないと思われます。
(埋め込みができないフォントのため)
結果的に編集できないのは同じですが。
    • good
    • 0
この回答へのお礼

再三有り難うございます。
小生が述べた「アウトラインフォント」とは、
http://e-words.jp/w/E382A2E382A6E38388E383A9E382 …
に定義されたフォントのことで、現在のフォントは殆どが「アウトラインフォント」と思います。
いずれにしても6400%に拡大してもギザギザにならないのですから、テキストと思いますが・・・・・。

お礼日時:2006/01/29 20:11

>このような「テキスト」を抽出する方法について知りたい。


No.1さんと同じですが、「作者がコピー禁止としたためテキスト抽出できない」ためと考えられるので、「作者の意図を尊重して」抽出はあきらめるのがマナーと思います。

意に添えない回答で、ごめんなさい。
    • good
    • 0
この回答へのお礼

有り難うございます。
ANo.1さんへのお礼を参考願います。

お礼日時:2006/01/29 13:40

>テキスト選択モードでCTRL+Aすると、選択できるテキストと選択できない「テキスト」があります。



実際に作れるか否かを実験してみました。

>選択できない「テキスト」をなぜ「テキスト」と判断したかといいますと・・・

このことから、最初にEPSを疑ったのですが、EPSテキストはPDFテキストとして変換されてしまうため、この事例に該当しませんでした。画像化されたテキストのEPSについては、当然のことながらテキストとして編集できませんが、CTRL+Aで選択できる/できないとは別次元の話になるようです。

次に、セキュリティ関連を疑ってみました。文書全体がパスワード保護されていれば、最初にパスワードの入力が求められるので気付きます。ところが、「権限」に設定を加えていると、その「権限」にアクセスしない限りパスワードの入力が求められません。たとえば、変更を許可しないにしておくと、CTRL+Aでの選択が無効になりました(すべてを選択解除は有効)。このほかにもいくつかの設定方法があると思いますがご参考まで。
    • good
    • 0
この回答へのお礼

いろいろと実験をいただき有り難うございます。
ANo.1さんへのお礼を参考願います。なお、当該pdfファイルは、印刷屋が印刷物と一緒に納入したファイルで、使ったDTPソフトが何か、明日聞いてみようと思っています。

お礼日時:2006/01/29 13:39

PDF形式ファイルは文字情報、画像情報、レイアウト情報等で構成されています。


テキスト選択できるものは文字情報としてそのPDFファイル自身が認識しています。

それが出来ない文字は文字情報としてではなく、画像情報としてPDFファイルが処理しているため、直接テキスト文字として拾い出すことは出来ません。
カメラで撮影した新聞の文字はあくまで画像というのと同じです。
    • good
    • 0
この回答へのお礼

有り難うございます。
最大(6400%)に拡大しても輪郭がシャープに描画される画像化された文字が存在するのでしょうか?

お礼日時:2006/01/29 13:38

「TouchUpテキストツール」でも選択できませんか。


私もPDFのフォントには苦労しており

http://oshiete1.goo.ne.jp/kotaeru.php3?q=1924149

こちらで質問させていただき、いろいろ試しているところです。
参考に、私の質問も読んでいただくと、何かピントになるかも知れません。
    • good
    • 0
この回答へのお礼

有り難うございます。
[ツール]→[高度な編集]→[TouchUpテキストツール(U)]を設定しても選択できません。

お礼日時:2006/01/29 13:38

印刷の許可とかテキストコピーの許可とかはpdfファイルを書き出す時に


設定されるものですので、作成者にパスワードを聞かないと編集できない
と思います。
印刷可能なら、いきなりPDFとかで読み込めますが(OCRと同じ原理で)。
    • good
    • 0
この回答へのお礼

有り難うございます。
もちろん[文書の印刷および編集とセキュリティ設定にパスワードが必要(U)]にチェックは入っていません。印刷は平常にできますし、ページの分割などもできます。
そもそも、ご回答の内容は、同一のファイル(ページ)のなかに《ctrl+Aで選択できるテキストと選択できないテキストがある》ことと矛盾していませんか?

お礼日時:2006/01/29 13:34

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


人気Q&Aランキング