wgetの使い方

解決済

質問者：kumar
質問日時：2007/04/16 09:34
回答数：3件

wgetを使ってサイトの中身をチェックしたいです。
下記の条件パラメータの付け方がよく分かりません。アドバイスお願いします。

たとえばhttp://www.hoge.com/というサイトがあって、
○実際のHTMLファイルは必要ないので、spiderモードで良い。
○spiderモードで得られた情報をテキストファイルに出力したい。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.3ベストアンサー

回答者： maura
回答日時：2007/04/16 15:21

spiderとは、

HEAD Method でリクエストしています。
HEAD Methodとは、サーバがレスポンスにおいてメッセージボディを返してはならない事を除けば GET と同一である。
よってHTMLのデータをまったくダウンロードしていないので
ダウンロードしていない情報（HTML)に書いてある情報(URL)を
持っていないので　再帰回収は、不可能です。

spiderを、はずせば再帰回収は動作します。

wget の実力では限界がありますが自分でPHPでプログラム
すれば限界は無いと思うので頑張って作ってみては？

- 0
- 件

通報する

この回答へのお礼

大変さんこうになりました。ありがとうございます。

通報する

お礼日時：2007/04/16 18:15

No.2

回答者： maura
回答日時：2007/04/16 10:23

wget --spider --output-file=out.log

http://www.hoge.com/

参考URL：http://www.geocities.jp/horiuchimasaru/wget.html

- 0
- 件

通報する

この回答へのお礼

ありがとうございます。一歩前に進めました！
さらに再帰的にチェックをかけようとして次のようにしたところ、
wget --spider --output-file=out.log -r -l 3 http://www.hoge.com/

下記のエラーメッセージが出てきました。スパイダーモードでは再起チェックはできないのでしょうか？
-----（ここから）-----
hoge.com/index.html: No such file or directory

FINISHED --13:57:49--
Downloaded: 0 bytes in 0 files
-----（ここまで）-----

通報する

お礼日時：2007/04/16 14:02