http://kanpoo.jp/
のサイトで、検索すると、PDFの内容が検索できます。
検索できるということは、PDFの文字を取得できるからだと思うのです。

PDFの文字をデータベースに読み込みプログラムを作りたいです。

とりあえず、PDFの文字を取得するプログラムを作りたいのですが、
作り方が全くわかりません。
どの言語をつかえばいいのか?
どの関数、ライブラリ?をつかえばいいのか?

何度ググっても、PDFの文字を取得するサイトがみつけられないので、
偉い人教えてください。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

標準でそういう機能を持っている言語はあまりないと思います。

そのためのライブラリなどを追加して処理することになるでしょう。例えば、Javaの場合、Apache Software Foundationから「PDFBox」というライブラリが出ています。これを利用することで、PDFからテキストを取得できます。

http://pdfbox.apache.org/
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
自分には敷居が高すぎたようです。

お礼日時:2011/05/24 22:20

わざわざ作らなくたって


テキストを引っ張り出すツールを呼び出せばいい

xpdfのpdftotextとかが使えるし,
namazuのようにpdfも全文検索できるものが
どうやってるのかをみればいい
(namazuのインデクサはxpdfを使ってたような).
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
pdftotextを使用してみましたが、日本語がうまく変換できませんでした。

お礼日時:2011/05/24 22:19

開発やったことない方なら、たしかにたどれないかもしれませんね。



通常、

SDK
OpenSouce
オープンソース
API

のキーワードを、アプリ名とか、ファイル形式について検索します。有償であったり、無償であったりします。

オープンソースと言うのは無償で、プログラムの内容を公開し、使ってもらうプログラムの事をさします。

http://www.google.co.jp/search?hl=ja&q=Acrobat+S …

http://www.google.co.jp/search?hl=ja&q=PDF+%E3%8 …

とかですね。その中から、

http://www.infoq.com/jp/news/2007/12/sun-release …

http://journal.mycom.co.jp/articles/2009/02/20/p …
http://kengo.preston-net.com/archives/002506.shtml

http://kb2.adobe.com/jp/cps/255/2558.html

これらとは別に、企業同士で提携すると、デベロッパー版が渡されます。それがSDKとか、フレームワークとか、API、SPIとかよばれるものです。

開発環境は、当然それらの物に依存するので、何かとは特定できませんが、昔からあるものなら、CがVBが多いです。

最近のものなら、C++、C#、Javaが多いです。

やる気があるひとなら、また許可されている場合は、別言語に書き換える方もいますが、Javaだと以外にそんあことしなくても、C++から使えます。

なお、COM(DCOM)として提供されていれば、VBS、VBA(つまりエクセルから使える)、JScriptなどのオブジェクト指向スクリプト言語が使えます。また、そのように開発している方もおおいです。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございました。
自分には敷居が高すぎました。

お礼日時:2011/05/24 22:18

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人はこんなQ&Aも見ています

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

QPDFファイルの編集ソフト(フリーソフトにて)

メールの添付ファイルでもらったPDFファイルを、
編集出来る「フリーソフト」はないでしょうか?

・申込書のPDFダウンロードなどで、申込書にキーボードから入力して、
添付ファイルで返信したい。
・添付PDFファイルの自分の持っている画像を貼り付けて編集したい

という意図です。

ちなみにフリーソフトの
・アドビー アクロバット リーダー
(PDFファイルを見ることだけできるもの)
・クセロPDF
(PDFファイルを作成だけ出来るもの)
しかありません

Aベストアンサー

PDFのメリットは、以下のようなものです。

(1)OS等の環境が違っても、作成した通りに見ることが出来る。
(2)軽量
(3)改ざん防止

更新を容易に許せば、PDFにするメリットが部分的に失われます。

Acrobatでは、記入欄にデータを入力できるようにPDFを作成する機能がありますが、これもPDFを更新するのではなく、データを入力した状態で印刷できることを目的としています。

ちなみにAdobe Readerは、見るだけでなく、PDF中のテキストや画像をコピーすることもできます。

添付ファイルに直接書き込んで返信が必要な電子ファイルなら、ワードやエクセルで作成してもらえばいいのではないでしょうか?

Q以下のページ内の用語の意味を教えてください。 https://ja.wikipedia.org/w

以下のページ内の用語の意味を教えてください。

https://ja.wikipedia.org/wiki/%E9%81%85%E5%BB%B6%E3%82%B7%E3%82%A7%E3%83%BC%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0

>OITが強く要求される場合においては、遅延シェーディングは

この"OIT"とは一体なんなんでしょうか?

Aベストアンサー

すぐ上に書いてあるじゃないですか。

順序非依存の透明度 (en:Order-independent transparency, OIT)

QWebから保存したPDFファイルを加工編集するフリーソフト。

Webから保存したPDFファイルを加工編集するフリーソフトを探しているのですが、文書を部分空欄に加工編集出来るものはないでしょうか?

Aベストアンサー

「部分空欄」が白ベタで塗りつぶす、でいいのならPDF-XChange Viewerで可能です。
テキストボックスツールで背景色を白(または任意の色)にし、枠線を白(または任意の色)にし、テキストに何も書き足さなければ部分空白になるでしょう。
Viewerですが、加工して保存もできます。文面固定ですがスタンプも押せます。

参考URL:http://www.forest.impress.co.jp/lib/offc/document/pdf/pdfxchange.html

Qhttp://****/の形をしたURIの総数

http://****/
上記のような形をした文字列のうち、URIとして正しいものは何個ありますか?
ただし、*には任意の文字が入るものとします。

Aベストアンサー

URIの形式として
scheme://[username[:password]@]hostaddress[:port][path]
scheme = http
path = /

・username,password に関する制限は何かあったかな?
・hostaddressについて
DNS表記では
RFC1035によると
ホスト名の最大サイズは63オクテット
FQDN の最大サイズは255オクテット
それぞれ最小サイズは1オクテット
RFC4343によると、大文字小文字は区別しないことになっていますが、有効なURIとして考えるなら大文字小文字は区別することになりますね。

使用できる文字はアルファベット,-,数字
Windowsの場合はこれに _ が追加されます

IPv6 直アドレスの形式の場合は16進数表現で、あらわされ、
[0000:0000:0000:0000:0000:0000:0000:0000]
03ef などは 3ef として表現してよい
0000:0000 など、0が連続する場合は :: で短縮できる。

日本語ドメインに関してはよくわかりませんがこれもURIとしては有効です。

・port について
0~65535 まで

・・・頑張って計算してください。

URIの形式として
scheme://[username[:password]@]hostaddress[:port][path]
scheme = http
path = /

・username,password に関する制限は何かあったかな?
・hostaddressについて
DNS表記では
RFC1035によると
ホスト名の最大サイズは63オクテット
FQDN の最大サイズは255オクテット
それぞれ最小サイズは1オクテット
RFC4343によると、大文字小文字は区別しないことになっていますが、有効なURIとして考えるなら大文字小文字は区別することになりますね。

使用できる文字はアルファベット,-,数...続きを読む

QPDF のデータを編集できるフリーソフトはある?

本質問に御対応頂き、ありがとうございます。
PDF のデータの中で、ある部分を消したり、トリミングしたりと編集をする方法がありますか?(フリーソフト とかで)
PDF PROFESSIONAL というものも、聞いたことがあるのですが・・・。
宜しく、御教示、お願い致します。

Aベストアンサー

基本的にPDFとはadobe社が作ったフォーマットなので
ライセンスが絡むのと技術的にお金や時間が掛かるので
フリーは無いです。

フリーウエアが多い、このご時世ですけどPDFに限ってないのはadobe社がリリースしている製品の品質が高いことと基本的にこの手の製品は業務で使う人が多いからです。

http://www.forest.impress.co.jp/lib/offc/document/pdf/pdfxchange.html
http://freesoft-100.com/review/pdf-explorer.php

>PDF PROFESSIONAL


いきなりPDF-Professional?
adobe pdf professional?

QPDFを全文検索するプログラム

Acrobatの提供するJavascriptオブジェクトやAPIを使用して、PDFを対象とした
全文検索ツールを作りたいのですが、書籍等も少なく、なかなか有効な情報に
出会えません。どなたか実際にそのような開発に携わったことがあれば、
その手法に関する情報をご提供頂けないでしょうか?
なお、市販のPDF全文検索ソフトもいろいろあるのですが、ライセンス
フリーなものが今回必要となり、自作を検討しております。
用途はPDFをCD-Rに焼き、そのCD-R内にCD-R内全文検索プログラムを
組み込むというものです。
よろしくお願い致します。

Aベストアンサー

私は経験も知識も無いものですが、
A.PDFファイルを直接読んで検索する。
B.人間が操作して、下記RTFファイルまたはテキストファイルに抽出して、検索する。の2つが考えられると思います。
お手許にPDFファイルのファイルフォーマットは既にあるのでしょうか。
その後Adobe社にこの形式のファイルを読み検索するアプリを作成する(その後貴社でソフトを販売するのですか?それを明確に伝えて)のに認諾や契約や有償が必要なのか確認されましたか。
(1)AcrobatファイルはRTF形式にテキスト部分のみ落とせるとのことです。
http://www.keiyu.com/doc/pdftxt.htm
http://search.luky.org/linux-users.8/msg00983.html
http://www.pdf-seek.com/jyouhou/index.html
http://pc-training.hp.infoseek.co.jp/pdf.html
http://www.y-adagio.com/public/standards/tr_pdf/pdfmain.htm
(この中に「著作権認諾」のことも載っている。)
相当調べられたふうですが、「PDF」「テキスト」「ファイル形式」「ファイルフォーマット」などでWEB検索してみてください。
(2)この落としたファイルを対象に、自作の検索プログラムを作り、走らせる。
(3)(1)はAcrobatの「操作」ですから、その通り操作でやると
オフラインバッチ処理的になり、1ステップ入ってしまいます。
それで良いのでしょうか。もし操作を自動的にするマクロのようなものが
あればAと近くなり、良いのでしょうが。
(3)バッチ的になって良いなら、(1)を操作でさせて、RTFファイルを読みこみ、扱う方法を習得すれば、検索プログラムが出来ると思います。
検索は「JavascriptオブジェクトやAPI」にそのものズバリはあるはずは
無いと思います。WINやJAVAやその他で検索エンジンまでAPIになっている例があるのでしょうか。
すなわち言いたいことは、RTFの形式のフォーマット詳細を調べるとかして勉強し、処理言語を決めて扱える事ができるようになることがターゲットでしょう。
(4)あと文章検索について色々なアルゴリズムがあるようですので、それを調べて勉強し、その処理言語で使用できるようになることでしょう。クラスモジュールのようなものが販売されておれば、使えると早いでしょうが。
経験のないものがあれこれいっておりますが、目指し進む方向がちょっと
気になりましたので。得るものがあれば幸甚です。

私は経験も知識も無いものですが、
A.PDFファイルを直接読んで検索する。
B.人間が操作して、下記RTFファイルまたはテキストファイルに抽出して、検索する。の2つが考えられると思います。
お手許にPDFファイルのファイルフォーマットは既にあるのでしょうか。
その後Adobe社にこの形式のファイルを読み検索するアプリを作成する(その後貴社でソフトを販売するのですか?それを明確に伝えて)のに認諾や契約や有償が必要なのか確認されましたか。
(1)AcrobatファイルはRTF形式にテ...続きを読む

QPDFの編集が出来るいいフリーソフトはありませんか

PDFの編集をしたいのですがいいフリーソフトをご存知ないでしょうか?
Win7で編集できるソフトを探しています。
窓の杜とかでいろいろ落としてみたのですが・・・いまく使えるものがありません。
やりたいこととしては複数ページあるPDFがあるのですが、間に不要ページが存在しているのでそのページを落として再度結合させてしまいたいのですが・・・
2,3のPDFの編集をするだけなのでAcrobatを購入するのも馬鹿らしいですし・・・
よろしくお願いします。
もしよかったら上記の編集の方法も補足頂けると幸いです。

Aベストアンサー

こんにちは

ページ単位の編集でよければ、pdf24でできた思いますよ。
freeなので試してみてください。

参考URL:http://en.pdf24.org/

QJP1から起動したexeでhttpリクエストを送信すると12007エラーが返ってきます

WinXP+VC++.NETで開発しています。
exeから起動すると、gooなどのページにアクセスしてhtmlソースコードをresponseより取得することができているのですが、JP1から起動すると12007エラー(ERROR_INTERNET_NAME_NOT_RESOLVED サーバー名を解決できませんでした)が出てしまいます。
こういった症状の経験のある方ございましたら、対処方法を教えてください。

Aベストアンサー

はじめまして。

同様の経験はありませんが、JP1は使用経験がありますので参考までに。

直接exeを実行したユーザで設定されている情報が、JP1実行ユーザ
(実行時or所有者)には設定されていない事があったりします。

その辺から見直すと、割と早く解決できると思います。

QPDF回転編集フリーソフト

PDF画像を回転保存できるフリーソフトを教えてください。

Aベストアンサー

下記にある、RotPDFや、PDF RotatePageでは如何でしょうか?

http://www.pdf-soft.com/freesoft/free07.html

Q「C#」文字コードの取得&文字変換

C#で文字コードを調べるプログラムを作成しています。
そこで2つ質問をさせてください。
1つ目(文字コード調べ)
TextBoxに漢字を入力して,各エンコーディングの文字コードを調べるときに,UNICDEの場合,
Encoding enc_default = Encoding.GetEncoding(932);
string input = tb_input.Text;
byte[] byte_input = enc_default.GetBytes(input);
string outtext_unicode = "";
Encoding enc_unicode = Encoding.Unicode;
byte[] byte_unicode = Encoding.Convert(enc_default,enc_unicode, byte_input);
foreach (byte b in byte_unicode)
{
outtext_unicode += string.Format("{0:X}", (int)b);
}
tb_output_unicode.Text = outtext_unicode;
とすると,調べたい文字コードがLE(リトルエディアン)で出力されます。これをBE(ビッグエディアン)で出力されるにはどうしたらよいでしょうか?
ご存知の方がいらっしゃいましたら,ぜひ教えてください。
よろしくお願いいたします。

2つ目(文字コードから文字を取得する)
上記の質問と逆のパターンで,TextBoxに文字コードを入力してもらい,人間が読める文字に変換する場合下記のようなコードを書くと,
string codePoint_string = tb_output_unicode.Text;
int codePoint = int.Parse(codePoint_string);
char c = (char)codePoint;
tb_input.Text = Convert.ToString(c);
ASCIIの文字コードを入力した場合には,きちんと変換してくれるのですが,漢字の文字コードを入力すると,FormatExceptionが発生します。
何か勘違いをしているのかもしれませんが,いまいちやり方が創造できません。
こちらも,ご存知の方がいらっしゃいましたら,ご教示願います。

C#で文字コードを調べるプログラムを作成しています。
そこで2つ質問をさせてください。
1つ目(文字コード調べ)
TextBoxに漢字を入力して,各エンコーディングの文字コードを調べるときに,UNICDEの場合,
Encoding enc_default = Encoding.GetEncoding(932);
string input = tb_input.Text;
byte[] byte_input = enc_default.GetBytes(input);
string outtext_unicode = "";
Encoding enc_unicode = Encoding.Unicode;
byte[] byte_unicode = Encoding.Convert(enc_default,enc_unicode, byte_input);...続きを読む

Aベストアンサー

フォームデザイナで,
Form1に対し,TextBox1とButton1を貼り付け,以下のコードを入力。
=============================
Public Class Form1

Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim codePoint_string As String = TextBox1.Text
Dim codePoint As Integer = Integer.Parse(codePoint_string)
Me.Text = Char.ConvertFromUtf32(codePoint)
End Sub
End Class
'=========================
その後
http://homepage3.nifty.com/jgrammar/ja/tools/codeval0.htm
を利用して
文字「あ」がUTF-32で00003042=12354であることを確認後
TextBox1に12354を入力してButtonをクリックしたら
Form1に「あ」が表示された。・・・けどUTF-16だから違うんだよね?
http://msdn2.microsoft.com/en-us/library/wdh8k14a(VS.80).aspx
とか
http://msdn2.microsoft.com/en-us/library/z2ys180b(VS.80).aspx
とか使うのかもしれないけど良く解らん。

フォームデザイナで,
Form1に対し,TextBox1とButton1を貼り付け,以下のコードを入力。
=============================
Public Class Form1

Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim codePoint_string As String = TextBox1.Text
Dim codePoint As Integer = Integer.Parse(codePoint_string)
Me.Text = Char.ConvertFromUtf32(codePoint)
End Sub
End Class
'========================...続きを読む


このQ&Aを見た人がよく見るQ&A

人気Q&Aランキング

おすすめ情報