プロが教える店舗&オフィスのセキュリティ対策術

下記3つの条件を満たすサイトを探しています。ご存じの方、教えてください。日本語サイトでも英語サイトでもどちらでも構いません。

1.無料で使えるサイト
2.会員登録をしないと使えないサイト(別の言い方をするとログインしないと使えないサイト)
3.robots.txtが”allow”のサイト(注)

注:robots.txtが”allow”かどうかは、URLの右側に、”/robots.txt”を追加すると表示されます。
一例として、biglobeの場合は、
https://www.biglobe.ne.jp/robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /top-new/
Disallow: /setting/
Disallow: /cp/wowow/tokuten/
Disallow: /optinout.html
Disallow: /optin_finish.html
Disallow: /optout_finish.html

と表示され、”allow”ではないことが分かります。

質問者からの補足コメント

  • どう思う?

    Allow を明示的に使っているサイトの一例です。
    https://charts.livegap.com/robots.txt

    User-agent: *
    Allow: /
    Sitemap: https://charts.livegap.com/sitemap.xml

    No.1の回答に寄せられた補足コメントです。 補足日時:2022/10/09 13:48
  • どう思う?

    1.無料で使えるサイト
    2.会員登録をしないと使えないサイト(別の言い方をするとログインしないと使えないサイト)
    3.robots.txtが”allow”のサイト(注)
    の条件をすべて満たすサイトを探すのが難しい場合は、1.と3.を満たすサイトでも構いません。
    よろしくお願いします。

      補足日時:2022/10/09 13:51
  • うーん・・・

    下記のように robots.txt が存在しないサイトも含まれるということでしょうか。
    ーー>回答はYESです。
    たぶんですが、「ログインしないと表示できないページにおいて Disallow が指定されていない場合にどのようにインデックスされるか?」ということが質問の本質ではないかと思うのですが、
    ーー>これは誤解です。

    No.2の回答に寄せられた補足コメントです。 補足日時:2022/10/09 18:31

A 回答 (2件)

No.1:追記



「User-agent:*」と「Allow:/」はどちらもデフォルトで「デフォルト(制限しない)」という意味なので、これを「明示的」と表現するのでしたら、下記のように robots.txt が存在しないサイトも含まれるということでしょうか。

https://order.yodobashi.com/

たぶんですが、「ログインしないと表示できないページにおいて Disallow が指定されていない場合にどのようにインデックスされるか?」ということが質問の本質ではないかと思うのですが、私の知る限り Google Search Console においてはエラーのページとして表示されインデックス不可となります。
この回答への補足あり
    • good
    • 0

デフォルトが Allow なので、Allow を明示的に使っているサイトはないと思います。


ただ、Disallowで指定したURLの中で明示的に Allow を指定する可能性はありますが、その場合は Disallow したURLも結果として見えてしまいますので、そのようなサイトを構築する必要性はないと思います。
この回答への補足あり
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!