探してます→リンク先の特定単語を抽出してくれるダウンロードソフト

締切済

質問者：yoroshikumail
質問日時：2007/10/02 13:41
回答数：1件

お世話になります。
ダウンロードソフトを探しています。

サイトのリンク先にある単語Aを含んだ情報を
抽出し、テキストやワード・エクセルにペーストしたいのです。
毎回ページを閲覧して、コピペしてたのですが、
大変要領が悪く、非効率でした。
数百ページにも及ぶともうお手上げです。

わかりづらいのですが例えば、研究者関連のサイトで、
雑誌名Aを特定検索かけると、雑誌名Aを含んだテキスト、
出版年Bを特定検索かけると、出版年Bを含んだテキスト、
と言った具合でリンク先を自動検索して抽出するソフトが
あれば大変大変助かります＾＾

さらには、サイトCに貼ってあるリンク先D,E,F,G,H,I...etc.
のリンクページなどにも自動検索してくれるともっと嬉しいです。
諸先輩方どうか助けてください・・・＞＜

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

最新から表示
回答順に表示

No.1

回答者： notnot
回答日時：2007/10/02 22:36

抽象的な質問なので、答えにくいのですが、一般的にウェブページを自動的に解析して情報を抽出する技術のことを、「ウェブスクレイピング」といいます。

目的とするサイトごとにスクリプトを書くことになります。
質問の文章から察すると、ちょっと荷が重そうですね。

一応キーワードをあげておくとPerlないしRubyで、Mechanizeなどを使って書くことになります。

この回答への補足

notnotさまご回答ありがとうございます。
教えて頂いたキーワードで軽く調べたところ、
Web3.0的要素が高くまだまだ私には使いこなせそうにありません＞＜
PHP素人かじりの私です＞＜

簡単に言うと、スパイダーやクローラーのようなイメージの
ソフトを探していました。
ただ、アドレス収集が目的ではないので、困っているのです。
＠認識の変わりに、単語認識とした抽出を狙っていました。
巷には、画像ファイルや動画などの自動ダウンロードソフトは
ごろごろ転がっているのですが、テキストとなると難しいみたいですね。
説明下手で申し訳ありませんでした。

もしもnotnotさまがおっしゃる方法を実行するならば、
http://www.testtest.ne.jp/test.html/test1.html
http://www.testtest.ne.jp/test.html/test2.html
http://www.testtest.ne.jp/test.html/test3.html
にある末端階層の情報を抽出するのには、

http://www.testtest.ne.jp/test階層
のスクリプトを記入するのではなく、
（この例だと1回）

http://www.testtest.ne.jp/test.html/test1.html階層
毎にスクリプト記入しなければならないのでしょうか？
（この例だと3回）
もしそうならば確かに荷が重いですね…＾＾；