
卒論のデータ分析に使う大量のPDFを、縦半分に分割したいのですが、
大量のPDFを縦半分に分割できるフリーソフトをご存知の方、教えていただけませんか?
ちなみになぜこのようなことをしたいかというと、手元の縦置きA4サイズのPDFは縦に分割された(2段組み?)の文書になっていて、データ(文章)は「左上→左下→右上→右下」の順になっています。このPDFをテキスト抽出したかったのですが、抽出したデータはその順番には抽出できなかったので、一度縦半分に分割して、左半分→右半分の順にテキスト抽出すれば正しい順番のデータができるのでは、と考えたのですが。。。
何か良い方法があれば教えてください。
A 回答 (6件)
- 最新から表示
- 回答順に表示
No.6
- 回答日時:
No.3の回答者です。
A4サイズをA5サイズにするのではなく、A4縦方向に分割するのですね。
[印刷]でのプリンターの指定でPDFソフトを指定して、[プロパティ]から
特殊なサイズ(105×297)のものを指定することでできませんか?
ただ上記設定で分割できたとしても、気になるのは抽出したデータが順番
には抽出できなかったことです。
Wordなどで段組みしたものをテキストを埋め込みしてPDFファイルにした
ものなら、PDF内のテキストを選択すると段ごとに選択範囲ができます。
これをコピーすれば順番が変わることはありませんでした。
もしかしたら上記設定で分割しても、選択範囲として正しくコピーできる
とは思えないのですが。質問にあるようなPDFのデータが手元にないので、
私自身が検証作業ができないことから、確実に希望しているような分割に
なるかどうかわかりません。
透明テキストとして、コピーできるようなものだとしたら、希望している
分割はできないかもしれませんね。
No.5
- 回答日時:
No4です。
>テキストデータは埋め込まれており、コピーアンドペースト可能なのですが、2000ファイルもpdf
>があるので、一括で処理したいと考えております。
>例えば教えてくださったソフトでは一括処理は可能でしょうか?
・PDF-XChange Viewerでコピペなど操作できるのはファイル単位です。
・ページ全体を選択した場合、段単位で文字列が取得できるPDFと「左上→左下→右上→右下」の順に取得できるPDFがあります。
ですから、このままでは一括処理はできませんが、
もしも、お手元のファイルが、
前者のタイプのPDFである
ならば、
すべてのPDFファイルをまとめて1つのPDFファイルを作り、
それをファイル全体をCTRL-Aで選択して、CTRL-Cでコピペ
すれば可能と思いますが、こればっかりは試してみるしかわかりません。
ありがとうございます。
PDFはファイルごとにテキスト抽出したいと思っています。
おっしゃるように、一度すべての元pdfをマージして、テキスト変換したものを元pdfファイルの切れ目で分割するという方法がありそうですね!
調べてみます。
No.4
- 回答日時:
>何か良い方法があれば教えてください。
PDFファイルからテキスト抽出したいのですよね。
文字画像としてではなくテキストデータが埋め込まれているPDFであれば、フリーソフトの
PDF-XChange Viewer
の テキストツール で2段組みの1段分の文字を選択して CTRL-C すれば、クリップボードに文字データがコピーされますので、ワードファイルの上で CTRL-V すればテキストが取り出せますよ。
文字画像として保存されたPDFであれば、OCRで画像認識する必要がありますので、他の回答を参考にしてください。
http://www.forest.impress.co.jp/library/software …
ありがとうございます。
テキストデータは埋め込まれており、コピーアンドペースト可能なのですが、2000ファイルもpdf
があるので、一括で処理したいと考えております。
例えば教えてくださったソフトでは一括処理は可能でしょうか?
No.3
- 回答日時:
A4サイズ横向きでの1ページごとに、A5サイズ縦置きでの2ページごとへと
分割するということですよね。
ネット検索などで「PDF 1ページ 分割」などで調べれば、参考になる情報が
探せると思いますよ。
http://oshiete.goo.ne.jp/qa/6526998.html
http://www.koikikukan.com/archives/2012/01/16-00 …
http://mamesibaj.web.fc2.com/it/IT_PDF_002000.html
http://tanweb.net/2014/06/27/1234/
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
このQ&Aを見た人はこんなQ&Aも見ています
おすすめ情報
このQ&Aを見た人がよく見るQ&A
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
DVDシュリンクが分割される事に...
-
複数ページのTIFファイルを分割...
-
生命保険で親が亡くなった場合...
-
DVD DecrypterでISOファイルが...
-
1ページのpdfファイルを半分の2...
-
元々パソコンに入っているペイ...
-
ファイルを複数のCD-Rに分割し...
-
700MB以上のファイルをCD-...
-
PDFをしおりを維持したまま分割...
-
質問です auの分割のローン審査...
-
添付ファイルが分割されてしまう。
-
REAPERでMIDIを再生するとテン...
-
ギャラクシー tab S6で画面上下...
-
ウインドウズメディアプレイヤ...
-
住所録を市区町村、番地、建物...
-
音楽の曲間を検知して分割する方法
-
PDFファイル,最後から最初まで...
-
2時間前後の会議音声を圧縮しメ...
-
Acrobat 9 でハイライトを一括...
-
OCNメールについて
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
複数ページのTIFファイルを分割...
-
1ページのpdfファイルを半分の2...
-
元々パソコンに入っているペイ...
-
会社の新設分割する場合につい...
-
質問です auの分割のローン審査...
-
歯科医院の院内分割について
-
生命保険で親が亡くなった場合...
-
住所録を市区町村、番地、建物...
-
700MB以上のファイルをCD-...
-
DVDシュリンクが分割される事に...
-
Exact Audio Copy(EAC)で...
-
PDFファイル,最後から最初まで...
-
DVD DecrypterでISOファイルが...
-
エクセルのハイフンあり並べ替えで
-
mp3をトラック分けできるフリー...
-
SoundEngineでのファイルの分割...
-
PDFをしおりを維持したまま分割...
-
JW-CADで面積を等分割し...
-
TIFイメージの複数の枚数を...
-
複数ページのtif分割
おすすめ情報
ありがとうございます。
ただ私の手元に元データがなく、PDFからテキストデータを抽出せざるを得ない状況なので非常に困っているのです・・・。