LWPでHTMLが取得できないことがある

解決済

質問者：takoyaki_b
質問日時：2009/01/08 12:54
回答数：3件

LWPを使ってHTMLを取得しようとしているのですが、取得可能のサイト、不可能のサイトがあります。
たとえばyahooのトップページは取得できますが、wikipediaは取得できません。取得できない場合、エラーメッセージは出ません。
このようになる理由を教えてください。
よろしくお願いいたします。

環境：windowsXP & ActivePerl、またはwindowsXP & cygwin

コード：
#wikipediaのトップページHTMLを取得する
use LWP::Simple;
$site = get "http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4% …
print $site;

#yahooのトップページHTMLを取得する
use LWP::Simple;
$site = get "http://www.yahoo.co.jp/";
print $site;

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (3件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： kumoz
回答日時：2009/01/08 16:54

wikipedia では、LWP::Simple のアクセスを許可していないのだと思います。

get() の代わりに getprint() を使用すると、次のエラーメッセージが出ます。

$ perl -MLWP::Simple -e "getprint 'http://ja.wikipedia.ogr/';"
403 Forbidden <URL:http://ja.wikipedia.org/>

下記の URL でほぼ同じ問題を取り上げていますのでご覧ください。

参考URL：http://www.atmarkit.co.jp/bbs/phpBB/viewtopic.ph …

- 1
- 件

通報する

この回答へのお礼

回答ありがとうございます。
参考URLで解決しました。

通報する

お礼日時：2009/01/09 17:26

No.3

回答者： jjon-com
回答日時：2009/01/08 17:51

http://blog.livedoor.jp/dankogai/archives/508065 …

- 0
- 件

通報する

この回答へのお礼

回答ありがとうございます。

通報する

お礼日時：2009/01/09 17:26

No.1

回答者： dumm
回答日時：2009/01/08 16:23

ユーザーエージェントで弾いてるんじゃないですか

Googleとかもlibwww-perlの方弾いてます

LWP::Simpleのリクエストヘッダはこれで403 Forbiddenとエラーページ返ってきてます

GET http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4% … HTTP/1.1
TE: deflate,gzip;q=0.3
Connection: TE, close
Host: ja.wikipedia.org
User-Agent: LWP::Simple/5.814

LWPを使った場合はこれで200 OKでちゃんとコンテンツ返ってきてます

GET http://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%A4% … HTTP/1.1
TE: deflate,gzip;q=0.3
Connection: TE, close
Host: ja.wikipedia.org
User-Agent: libwww-perl/5.814