モテ期を経験した方いらっしゃいますか?

.htaccess の検索除けで、
CGIディレクトリをクロール巡回されたくないのです。
まずは、ルートにrobots.txtで、
User-agent: *
Disallow: /cgi/
バイドゥが無視するらしいので、/cgi/内にも.htaccess で、
SetEnvIf User-Agent "Baidu" deny_ua
SetEnvIf User-Agent "Baiduspider" deny_ua
order allow,deny
allow from all
deny from env=deny_ua
と書きました。こうで、バイドゥは排除できると思うのですが、
「バイドゥはダメですよ」と書いてあるのでしょうか?
それとも
「他は許可するけどバイドゥはダメですよ」
と書いてあるのでしょうか?
頭が混乱して良く分からなくなりました。
バイドゥ以外のクローラーが、/cgi/に来ちゃいますか? 回答お願いします<(_ _)>

A 回答 (3件)

>ここに他のクロールが来ないのでしょうか? そこが気になります。


そういうことにはなりません。
バイドゥ以外は.htaccessで何も指定せず、robots.txtのみを置いたのと同じ状態ということです。

もしバイドゥ以外のロボットがrobots.txtを無視すれば、当然収集していく可能性があります。
    • good
    • 0
この回答へのお礼

他のクローラーをrobots.txtで拒否していたのに、
.htaccessで許可になっては意味がなくなると悩んでしまいました・・・

これで一般クローラーをrobots.txtで拒否し、
バイドゥは更に二重で拒否って事で理解できました。
大変、ありがとうございました。

お礼日時:2010/05/25 19:09

この場合は全てを許可して拒否する条件を個別に指定しますので、


意味合いとしてはバイドゥは拒否、それ以外は許可するという設定ですね。
これはrobots.txtへの影響はありませんので問題ないかと思います。

でも、私のサイトではバイドゥもちゃんとrobots.txtを見てくれていましたけどね。
    • good
    • 0
この回答へのお礼

ご回答ありがとうございます。
この場合、他が許可になっていますよね?
robots.txtで他の検索クローラーを拒否していますが、
.htaccessで許可しているので、この場合は、
ここに他のクロールが来ないのでしょうか? そこが気になります。

お礼日時:2010/05/24 18:39

私の捉え方が間違えていたら失礼します。



そもそもクローラーのIP情報を調べて主要なIPを弾く仕様にしたらいいと思います

━━━━━━━━━━━━━━━━━━━━
order allow, deny
allow from all

#Google 2010/05/20
deny from 72.14.199.0/25
deny from 209.85.238.0/25



━━━━━━━━━━━━━━━━━━━━

みたいな形式です。

主要所のIP情報なら
http://www.dspt.net/tools/mobile_ip/
こちらのサイト簡単に.htaccessを作成する事が出来ます。

ただこれは許可の為のなので2点修正します。
修正点1
=========
order deny,allow
deny from all

↓ 修正

order allow, deny
allow from all

=========

修正点2
=========
#Google 2010/05/20
allow from 72.14.199.0/25
allow from 209.85.238.0/25




↓ 修正

#Google 2010/05/20
deny from 72.14.199.0/25
deny from 209.85.238.0/25

=========


バイドウなど他の検索エンジンも調べればIP情報が出てくると思うので
こちらを確認してアクセスを遮断すれば良いと思います。
    • good
    • 0
この回答へのお礼

勉強になりました。ご回答ありがとうございます。

お礼日時:2010/05/24 18:36

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!


おすすめ情報