プロが教える店舗&オフィスのセキュリティ対策術

お世話になります。
ダウンロードソフトを探しています。

サイトのリンク先にある単語Aを含んだ情報を
抽出し、テキストやワード・エクセルにペーストしたいのです。
毎回ページを閲覧して、コピペしてたのですが、
大変要領が悪く、非効率でした。
数百ページにも及ぶともうお手上げです。

わかりづらいのですが例えば、研究者関連のサイトで、
雑誌名Aを特定検索かけると、雑誌名Aを含んだテキスト、
出版年Bを特定検索かけると、出版年Bを含んだテキスト、
と言った具合でリンク先を自動検索して抽出するソフトが
あれば大変大変助かります^^

さらには、サイトCに貼ってあるリンク先D,E,F,G,H,I...etc.
のリンクページなどにも自動検索してくれるともっと嬉しいです。
諸先輩方どうか助けてください・・・><

A 回答 (1件)

抽象的な質問なので、答えにくいのですが、一般的にウェブページを自動的に解析して情報を抽出する技術のことを、「ウェブスクレイピング」といいます。



目的とするサイトごとにスクリプトを書くことになります。
質問の文章から察すると、ちょっと荷が重そうですね。

一応キーワードをあげておくとPerlないしRubyで、Mechanizeなどを使って書くことになります。

この回答への補足

notnotさまご回答ありがとうございます。
教えて頂いたキーワードで軽く調べたところ、
Web3.0的要素が高くまだまだ私には使いこなせそうにありません><
PHP素人かじりの私です><

簡単に言うと、スパイダーやクローラーのようなイメージの
ソフトを探していました。
ただ、アドレス収集が目的ではないので、困っているのです。
@認識の変わりに、単語認識とした抽出を狙っていました。
巷には、画像ファイルや動画などの自動ダウンロードソフトは
ごろごろ転がっているのですが、テキストとなると難しいみたいですね。
説明下手で申し訳ありませんでした。


もしもnotnotさまがおっしゃる方法を実行するならば、
http://www.testtest.ne.jp/test.html/test1.html
http://www.testtest.ne.jp/test.html/test2.html
http://www.testtest.ne.jp/test.html/test3.html
にある末端階層の情報を抽出するのには、

http://www.testtest.ne.jp/test階層
のスクリプトを記入するのではなく、
(この例だと1回)

http://www.testtest.ne.jp/test.html/test1.html階層
毎にスクリプト記入しなければならないのでしょうか?
(この例だと3回)
もしそうならば確かに荷が重いですね…^^;

補足日時:2007/10/03 01:01
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!