検索サイトのロボットが定期的に巡回して、サイトを拾って(という表現があっているかは分かりませんが…)ゆく、と聞きますが、そういったロボットが収集してゆくのはhtml/htm形式のものだけなのでしょうか。
例えば、サイト内に「申込書はこちらからダウンロードしてください」等で、エクセルの表にリンクしている場合がありますよね。このエクセルの表なども巡回のロボットに収集されるのですか。
ご存知の方教えてください。よろしくお願いします。

このQ&Aに関連する最新のQ&A

A 回答 (3件)

検索ロボットは、リンクをたどってページを拾ってゆきます。

そのサイトの全ての
ファイルが見えているわけではありません。

検索ロボットは、検索のためにファイルを拾ってゆくわけですから、その内容が
理解できないファイルは、リンクが張ってあっても読み飛ばします。

ですから、エクセルの表が理解できるロボットがあれば、それも収集の対象にする
のですが、まだ、そういうロボットを私は知りませんが、技術的には可能です。

No.1 の方が書かれているとおり、Google では PDF ファイルも検索の対象に
なっていますが、それは、Google の検索ロボットが PDF のファイルの内容も
理解できるようになっているからです。

また、CGI のように動的なページも検索対象として引っかかるケースがあります。
先に書いたように、ロボットはリンクをたどります。なので、CGI の出力を
リンク先として記載しているページがあれば、ロボットはそれを対象にします。
その CGI の出力は html なので、ロボットは理解可能ですから。

試しに、"oshiete1 a-kuma" をキーに検索をしてみました(→参考URL)。
PHP の動的な出力のページでも引っかかりますよね。

参考URL:http://www.google.com/search?num=100&hl=ja&q=osh …
    • good
    • 0
この回答へのお礼

早速の解答感謝いたします。
「技術的には可能だが、今のところそういったロボットは無いと思う」という
ことですね。大変よく分かりました。
私的な会の名簿をエクセルで作って、リンクしていいものかどうか迷っていた為に
質問させていただいたので、このような答えで安心しました。
どうもありがとうございました。

お礼日時:2001/11/13 10:16

「HTML形式だけではありませんがエクセルの表はダメです」という答えになります。


巡回ロボットが拾えるのは、基本的に
・静的なドキュメントで
・テキスト形式のファイル
です。
したがってCGIやSSI、PHPなどのサーバサイドプログラムでそのつど動的に生成されるファイル(たとえばこの教えて!gooのような)は検索に引っかかりませんし、
エクセルの.xlsファイルのようにバイナリエンコードされたファイルも検索できません。

その一方で、HTMLではない素のテキストファイルが置いてあると検索に引っかかります。
.txtや.csvなど、拡張子にかかわらずASCIIテキストで記述されているファイルは引っかかるようです。
    • good
    • 0
この回答へのお礼

早速のお返事ありがとうございます。
ロボットが拾う/拾わないファイルの違いが、(ほんの初歩かもしれませんが)
うっすらと分かったように思います。本当に初心者で今まで何も知らなかった
のでとてもありがたいです。

お礼日時:2001/11/13 10:12

実際に自分で色々検索してみると分かると王のですが、


htmlだけではなく、pdfファイルなんかも検索に引っかかっていますね。

ただ、excelファイルと言うのは見たこと無いです。
圧縮ファイルなどもですが。

ダウンロードしてくださいの場合は、圧縮ファイルにしてみてはどうでしょうか?
    • good
    • 0
この回答へのお礼

早速のお返事ありがとうございます。
検索にかかるのはhtml形式だけでないというのは初めて知りました。
勉強になりました。

今まで、解凍は何度もしたことがあるのですが、圧縮はまだ
やってみたことがありません。これを機に挑戦してみたいと思います。

お礼日時:2001/11/13 10:10

このQ&Aに関連する人気のQ&A

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!

このQ&Aを見た人が検索しているワード

このQ&Aと関連する良く見られている質問

Qyahooカテゴリ登録とロボット巡回の関係について

お世話になります。

新規サイト構築時や新規ドメインを取得した場合、ロボット型検索エンジンに登録されるまでに3か月以上かかることもあるかと思います。
このような場合、Yahoo!カテゴリ登録(Yahoo!ビジネスエクスプレス登録)によって、登録の時期を早める効果が期待できるのでしょうか?

もしそうであればYahoo!から被リンクされることによって、確実にロボットから巡回されるようになるから という理由になりますでしょうか?
そもそもロボット検索に登録されるしくみもよくわからないのですが、よろしければ教えていただけますでしょうか?

よろしくお願いいたします。

Aベストアンサー

>Yahoo!カテゴリ登録(Yahoo!ビジネスエクスプレス登録)
>によって、(ロボット型検索エンジンへの)登録の時期を
>早める効果が期待できるのでしょうか?

はい,期待できると思います。


>bizxに申請・登録すれば、すぐにロボットに読み込まれ、ロボット
>検索にヒットするようになるという認識でよろしいでしょうか?
>それともヒットする「可能性」が高まるということでしょうか?

ビジネスエクスプレス(bizx)公式サイトではそのメリットを,
「Yahoo!カテゴリでの」キーワード検索や,Yahoo!検索の「登録サイト検索」でヒットすることだと謳っています。Yahoo!の「ウェブ検索」だとは書いてありません。
http://bizx.yahoo.co.jp/merit.html

ただ,良質なリンク集とみなされているYahoo!カテゴリに登録されればそのサイトがクロールされやすくなるのは事実でしょう。クローラーをそのサイトに訪れさせるだけで「5万円払っただけのことはある(^^)」と客が満足してくれるなら,Yahoo!JAPANだって客商売ですもの,そのくらいの対処はしていてもおかしくないと思います。


>そもそもロボット検索に登録されるしくみもよくわからない

Yahoo!カテゴリ登録が目的ではなく,Yahoo!のロボットに新規Webサイトの全ページをいち早くクロールしてもらうことが目的なら,サイトマップ(sitemaps)という技術を使います。登録は無料。Yahoo!では,sitemapsを「フィードURL」,それを扱うサービスを「サイトエクスプローラー」と呼んでいます。
http://help.yahoo.co.jp/help/jp/siteexplorer/siteexplorer-10.html

サイトマップとは,自分のWebサイトに存在する全WebページのURL情報を1つのファイルに格納したもの。それを自分のWebサイトにアップロードしておき,そのsitemapsファイルのURLをYahoo!に手動操作で知らせるわけです。Yahoo!はそのデータを参照して全WebページのURLを知り,それを基にクロールをおこなうわけです。

XML・RSS・Atomなどの書式を使えばより詳しい情報をYahoo!に教えることができますけれど,メンドウであるなら,単にURLを列挙したtxtファイルでもかまいません。この点も,上記URLのサイトエクスプローラーヘルプに書いてあります。

数年前,私がGoogleサイトマップを初めて使ったときは,1週間ほど?でGoogleのクローラーがやってきました。

>Yahoo!カテゴリ登録(Yahoo!ビジネスエクスプレス登録)
>によって、(ロボット型検索エンジンへの)登録の時期を
>早める効果が期待できるのでしょうか?

はい,期待できると思います。


>bizxに申請・登録すれば、すぐにロボットに読み込まれ、ロボット
>検索にヒットするようになるという認識でよろしいでしょうか?
>それともヒットする「可能性」が高まるということでしょうか?

ビジネスエクスプレス(bizx)公式サイトではそのメリットを,
「Yahoo!カテゴリでの」キーワード検索や,Yahoo!...続きを読む

Qgoogleの巡回ロボット

最近ホームページを移転しました。
今までリンクしていただいてる方にも変更をお願いし
googleに申請もしました。

何度か巡回ロボットも来てるようなのですが
TOP以外のページを巡回していないようです。

TOPページはflashなどを外し軽くしてあります。
どのようにすれば他のページを巡回してもらえるんでしょう?

Aベストアンサー

TOP ページから下位ページまでの全部のページが一気に登録されるわけでもないらしいですよ。

自分の場合もそうだったのですが、段階的に登録されていきましたので、もう少し待たれてみてはどうでしょう。

Qロボット型検索エンジンで自分のホームページのトップページしかページを巡回してくれないのですが。

Googleでホームページのトップページしか巡回していないみたいのですが?なぜでしょうか?リンクはしていますし、フレーム外にもページ内リンクを貼っているのですが?ちなみに簡単に作れるホームページソフトで作っています。

Aベストアンサー

Googleの検索ロボットの巡回って、月一回ぐらいですよね。(私のHPのキャッシュの状況から、そう思っています。)
私のところも、3~4ヶ月たっても拾われないページがあります。ほんとになぜなんでしょう。

前に、拾われていないページの直接URLをGoogleに登録したことがあります。(でも、これをあまりしつこくやるとまずいとの話も聞くのですが。)

Q検索ロボットはページのどこを拾っているか

検索ロボットによる全文検索型サーチエンジンって、Webページのどこを拾って、タイトルにしたり、サイト説明にしたり、キーワードにしたりしてるのでしょう?
一説によると、titleタグをみてるとか、METAタグをみてるとか、いや~全文っていうくらいだから全文だよとか、コメントやAltはみてないよ、とか。
もちろんサーチエンジンによってそれぞれ方式が違うのでしょうが、そこらへん体系的に
例えば

yahooの場合はタイトルはここ、説明はここ、キーワードはここ(Yahooはロボットじゃないから違うか)
gooの場合はタイトルはここ、説明はここ、キーワードはここ
infoseekの場合はタイトルはここ、説明はここ、キーワードはここ
gogleの場合はタイトルはここ、説明はここ、キーワードはここ
みたいな比較表みたいなのはないでしょうか。

ある知り合いが、ホームページを一生懸命、検索エンジンに登録して廻ったけどちっとも拾ってくれなくて、DOKODAだったかな、・・・に登録したら、DOKODAに出るようになって、同時にMNSで検索できるようになったんだけど、なんか関係があるなかなぁ・・・それとも偶然かなぁ~といってました。しかもWebページにも登録時にも入れてない文書が説明書きに入っていてよくわからん、と嘆いていました。

やっぱり明確なところは企業秘密なんかな~

検索ロボットによる全文検索型サーチエンジンって、Webページのどこを拾って、タイトルにしたり、サイト説明にしたり、キーワードにしたりしてるのでしょう?
一説によると、titleタグをみてるとか、METAタグをみてるとか、いや~全文っていうくらいだから全文だよとか、コメントやAltはみてないよ、とか。
もちろんサーチエンジンによってそれぞれ方式が違うのでしょうが、そこらへん体系的に
例えば

yahooの場合はタイトルはここ、説明はここ、キーワードはここ(Yahooはロボットじゃないから違うか)
...続きを読む

Aベストアンサー

タイトルはtitleタグでしょ?

その他詳しくは下記で。
http://ippatsu.net/TARO/

参考URL:http://ippatsu.net/TARO/

Qindex.htmとindex.htmlを1つのサイトに作成したらどうなりますか?

以前トップベージは「index.htm」でしたが、いろいろ問題が出てきたので、「index.html」に変更した所、サイトが見えないと言う人が出てきました・・。そこで、1つのサイト内にindex.htmとindex.htmlを同時に作成するとどうなってしまうのでしょうか?
これはいけない事ですか?

Aベストアンサー

どのような状況で「見えない」と言われているのか分かりませんので一般的な情報を。

たとえばwww.yahoo.comというアドレスを持つサイトがあったとします。
ブラウザのurlを入力するところで、http://www.yahoo.comと入力し、移動すると、www.yahoo.comを管理しているhttpサーバはあらかじめ設定されているルールに沿ってindex.htmやindex.htmlなどを表示します。
本当はindex.htmなどのファイル名まで指定しなければいけないところを、httpサーバが自動的にやってくれているわけです。

さてhtmをhtmlに変えて見えなくなったということですが、もしかすると質問者様が使っているhttpサーバはwww.yahoo.comと入力されたときに自動的にindex.htmは表示してくれますが、index.htmlは表示してくれないのかも知れません。

もし同時に作った場合も先に説明したルールに沿って、最初に見つけたファイルを自動的に表示します。ですので二つ作ることはいけないことではありません。
この設定はhttpサーバの管理者が設定しており、httpサーバの種類によっても違いますし、どのようなルールで設定されているかによっても違います。
(技術的には可能でも、やらないルールになっているとか)

もし、どこかのホームページスペースを借りているなら、管理会社のサイトに説明があるはずです。よく調べてみてください。

どのような状況で「見えない」と言われているのか分かりませんので一般的な情報を。

たとえばwww.yahoo.comというアドレスを持つサイトがあったとします。
ブラウザのurlを入力するところで、http://www.yahoo.comと入力し、移動すると、www.yahoo.comを管理しているhttpサーバはあらかじめ設定されているルールに沿ってindex.htmやindex.htmlなどを表示します。
本当はindex.htmなどのファイル名まで指定しなければいけないところを、httpサーバが自動的にやってくれているわけです。

さてhtmをhtmlに変...続きを読む


人気Q&Aランキング

おすすめ情報