プロが教えるわが家の防犯対策術!

wgetを使ってサイトの中身をチェックしたいです。
下記の条件パラメータの付け方がよく分かりません。アドバイスお願いします。

たとえばhttp://www.hoge.com/というサイトがあって、
○実際のHTMLファイルは必要ないので、spiderモードで良い。
○spiderモードで得られた情報をテキストファイルに出力したい。

A 回答 (3件)

spiderとは、


HEAD Method でリクエストしています。
HEAD Methodとは、サーバがレスポンスにおいてメッセージボディを返してはならない事を除けば GET と同一である。
よってHTMLのデータをまったくダウンロードしていないので
ダウンロードしていない情報(HTML)に書いてある情報(URL)を
持っていないので 再帰回収は、不可能です。

spiderを、はずせば再帰回収は動作します。

wget の実力では限界がありますが自分でPHPでプログラム
すれば限界は無いと思うので頑張って作ってみては?
    • good
    • 0
この回答へのお礼

大変さんこうになりました。ありがとうございます。

お礼日時:2007/04/16 18:15

wget --spider --output-file=out.log

http://www.hoge.com/

参考URL:http://www.geocities.jp/horiuchimasaru/wget.html
    • good
    • 0
この回答へのお礼

ありがとうございます。一歩前に進めました!
さらに再帰的にチェックをかけようとして次のようにしたところ、
wget --spider --output-file=out.log -r -l 3 http://www.hoge.com/

下記のエラーメッセージが出てきました。スパイダーモードでは再起チェックはできないのでしょうか?
-----(ここから)-----
hoge.com/index.html: No such file or directory

FINISHED --13:57:49--
Downloaded: 0 bytes in 0 files
-----(ここまで)-----

お礼日時:2007/04/16 14:02

PHPでしたいという質問でしょうか?


それとも単にwgetのspiderモードの質問でしょうか?
後者なら板違いです
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!