dポイントプレゼントキャンペーン実施中!

パスワードがかかったPDFファイルをhtmlに変換したいと考えています。
具体的には、EDINETに載っている有価証券報告書です。
このPDFファイルは、閲覧は誰でも可能なのですが、編集できないようにパスワードがかかっています。

これをhtmlに変換したいのですが、どのような手段が考えられるでしょうか。
なお、無料に越したことは無いですが、多少のお金がかかっても構いません。

A 回答 (3件)

編集できないようにしてるものを バラしてHTMLにすれば


「編集できてしまうもの」になりますよね。
それ 倫理的に大丈夫なんでしょうか? まず其れを相手に確認しないと しりませんよ

陶然パスワードがかかっているのなら、絵として取り込んで作り変えるしか方法はありませんので
その報告書を画面に出しておいて プリントスクリーンキーを押して
スクリーンショットを取って画像編集ソフトで 各パーツに分解して HTML化すれば
できますが、すべてが画像という時点で、何ぼでも編集可能ですので

報告書を製作した会社の信頼を失墜させたり、嘘の報告に書き換えて訴えを起こすことも可能です。

この回答への補足

処理したいのは、「EDINETに載っている有価証券報告書」です。
抽出したいのは文中のテキストデータですので、画像にしてしまうとやりたいことは達成できません。

私の意図は文中のデータを抽出することで、内容を書き換えて悪用したりはしません。
何より、EDINETに厳正なる原本が載っているので、
まともな人ならばEDINETのファイルを見るでしょうから、誰かを惑わすことにはならないと思います。

補足日時:2011/08/01 17:10
    • good
    • 0

結局は1番さんの回答になりますが、仮想プリンターで画像として出力する。


それをhtmlに変換してもよいし、再度AcrobatでPDFにしてhtmlに書き出してもよい、1番さんが回答されたようにOCRソフトで文字情報に直すという方法もあるけど、読み合わせをしないと誤字脱字の可能性はある(それ用に音声読み上げソフトも買ってインストールしてあります)。
ネットで探していたら、こういった動作を自動で行う「Free PDF Unlocker」というフリーソフトを見つけました。
説明によれば、これはパスワードを解析してクラックするのではなく、開いたPDFファイルをコピーして新しいPDFファイルを作るというもののようです。
それ以上はわかりませんので、自分で検索してみてください。

念のために言いますが、パスワードを解除するわけではなく、単に内容をコピーするソフトですから、パスワードがないと開けないファイルは対象外になります。
    • good
    • 0

参照可能な情報でしたら、OCRソフトウェアを利用して、



直接、文字認識する方法があります。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!