皆様いつもお世話になっております。
今日はperlでLWP::UserAgentを使って、google検索結果を得ようとしたところで、岩に躓いて肘の骨に皹が入った点で質問させていただきます。
googleで「asd」と検索するとURLは
http://www.google.co.jp/#q=asd
となりますが、#ってのは、ページ内遷移などを主目的とした、クライアント、ブラウザ側がご自由に使ってくださいのパラメータの記述開始マークではないのですか?
まあ、これに従ったとして、
「http://www.google.co.jp/#q=asd」
を、perlのLWP::UserAgentを使って、
----
my $ua = LWP::UserAgent->new;
$ソース = $ua->get("http://www.google.co.jp/#q=asd"); # googleのトップページの検索結果が返る
----
と投げてみましたところ、Google ☆ト ッ プ ペ ー ジ☆ のソースが返ってくるのです。
Yahoo!ではasdと検索すると?がついて「http://search.yahoo.co.jp/search?p=asd」となるし、perlで同じ文字列をリクエストするとちゃんと検索結果が返ってくるので、googleの仕様がおかしいのではないか?というのが、私の推測群の現在の最有力候補であります。
----
my $ua = LWP::UserAgent->new;
$ソース = $ua->get("http://search.yahoo.co.jp/search?p=asd"); # asdの検索結果が返る
----
ちなみにですが、googleを?を使って
「http://www.google.co.jp/?q=asd」
と、ブラウザURL欄に入力しEnterを押すと、Googleトップページがテキストボックスに「asd」と入力された状態で表示されます。
この現象を説明していただける方がいらっしゃいましたら、どうかよろしくお願い致します。m(_ _)m
-- 環境情報
ブラウザ IE10
OS Windows7
--
No.4ベストアンサー
- 回答日時:
Googleは、Web検索を外部プログラマが利用できるよう、Google Web APIを公開しています。
このAPIは制限があり、一日1000クエリまで、検索結果もGoogleの検索サイトと少し異なるようです。
この問題を回避するため、Google検索にクエリを投げてHTMLを解析しようとすることがありますが、(Googleの)ライセンス違反の恐れが高いですし(他人のコンテンツをキャッシュしてビジネスしてるのに)、検索結果のHTML自体が頻繁に内容が変わって解析できなくなってしまうことがあります。
本音と建前が出てしまいますが、冒頭が回答になります。
hirotn様、再びありがとうございます。
なるほど、クエリーを投げるためのAPIがあり、一日1000回までなんですね。
#を?にしてしまうと自由に検索結果を取得できてAPIを利用する意味がない=>Googleのビジネスが成立しない、商品(コンテンツまたはそれをキャッシュしたもの)の提供者としての"世界の管理人たち"に対してGoogleがライセンス違反?したということになりかねないという解釈でよいしょうか。
勉強になりました。ありがとうございましたm(_ _)m
結局プログラムにはYahoo!の検索結果を用いましたが、機会があればGoogleAPIに手を出そうと思います!
No.3
- 回答日時:
#q=xxxxxxxx は、jQueryからみかと。
以下URLが該当かと。
http://www.kaasan.info/archives/564
これを参考にソースを見てみると、こんな記述があって、知識不足なのでよくわかりませんが匂います。
location.hash.match("[#&]((q|fp)=|tbs=simg|tbs=sbi)")
とすると、URLを生成するだけではだめできちんとイベントが起きていないと、#q=xxxxxx表記による検索は実行されないと考えられます。?を使って記述するのではダメでしょうか?
hirotn様、ご回答ありがとうございます。
頂いた情報をもとに調べた結果、#以降をアンカーと呼ぶこと、javascriptでlocation.hashによってアンカーを取得できることを初めて知りました。
googleで検索キーワードを入力している最中に結果が随時表示される((1)おそらく頻出キーワードに限って(2)yahooにはこの機能はない)ところを見ると、おそらくhirotnさんの推測されるとおりjQueryか何かでajaxを使ってサーバーとやりとりをしていますね・・・
?を使った表記では、
ブラウザ:テキストボックスにキーワードが入力されたトップページが表示される
Perl:トップページのソースが返る
といった結果ですので、googleに関してはプログラム(javascriptを解析できないようなシンプルなもの)で検索結果を取得するのは無理か、骨が折れるものになるか、GoogleがAPIを出しているかも?ということでしょうな。。
とても勉強になりました。ありがとうございます。
No.2
- 回答日時:
URI::Escapeは利用可能ですか?
http://search.cpan.org/dist/URI/URI/Escape.pm
http://homepage3.nifty.com/hippo2000/perltips/UR …
use URI::Escape;
$safe = uri_escape("10% is enough\n");
$verysafe = uri_escape("foo", "\0-\377");
$str = uri_unescape($safe);
回答ありがとうございます。
日本語ならescapeするつもりです。
今回google検索結果のurlとそのurl中パラメータが#で区切られていてしかもそのURLでHTTPリクエストを投げるとトップページのソースが返るので悩んでいます。
エンコ・デコに関しては大丈夫です。
No.1
- 回答日時:
Perlの#は、どういう意味でしたか?
$ソース = $ua->get("http://www.google.co.jp/#q=asd"); # googleのトップページの検索結果が返る
は、
$ソース = $ua->get("http://www.google.co.jp/
では??
>googleで「asd」と検索するとURLは
http://www.google.co.jp/#q=asd
となりますが、
なりません。
回答ありがとうございます。
#はコメントアウトの 場 合 があります。
コメントアウト扱いになってたらまずエラーが出てますよね。
#は例外として""中の#と$後の#はコメントアウト扱いさません。
あと文末の「なりません」の意味がわかりません。
なんかすみません。何かご存知でしたらよろしくお願いいたします。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・人生のプチ美学を教えてください!!
- ・10秒目をつむったら…
- ・あなたの習慣について教えてください!!
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・【大喜利】【投稿~9/18】 おとぎ話『桃太郎』の知られざるエピソード
- ・街中で見かけて「グッときた人」の思い出
- ・「一気に最後まで読んだ」本、教えて下さい!
- ・幼稚園時代「何組」でしたか?
- ・激凹みから立ち直る方法
- ・1つだけ過去を変えられるとしたら?
- ・【あるあるbot連動企画】あるあるbotに投稿したけど採用されなかったあるある募集
- ・【あるあるbot連動企画】フォロワー20万人のアカウントであなたのあるあるを披露してみませんか?
- ・映画のエンドロール観る派?観ない派?
- ・海外旅行から帰ってきたら、まず何を食べる?
- ・誕生日にもらった意外なもの
- ・天使と悪魔選手権
- ・ちょっと先の未来クイズ第2問
- ・【大喜利】【投稿~9/7】 ロボットの住む世界で流行ってる罰ゲームとは?
- ・推しミネラルウォーターはありますか?
- ・都道府県穴埋めゲーム
- ・この人頭いいなと思ったエピソード
- ・準・究極の選択
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
グーグル先生
-
株式会社オール5 について
-
スマホの最初の暗証番号の変更...
-
DAWの意味は?
-
起き上がりこぼしと起き上がり...
-
このスマホのCPU速度を教えて欲...
-
教えてください!旧字体について
-
ヨーヨーの原理で走らせる玩具...
-
内蔵フロッピーディスクドライ...
-
マザーグースと不思議の国のアリス
-
こんにちは。 PCの検索エンジン...
-
特定のサイトだけが重くて開けない
-
ホームページの画面文字を濃く...
-
エクセルのプルダウン三角マー...
-
IEの画面に、マカフィーの通...
-
[Ctrl]+FをVBAで表現
-
単純所持になりますか?
-
英字の筆記体をエクセル等で表...
-
IEのウィンドウ画面が、いつも...
-
【WordXP】網掛け文字の検索
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
グーグル先生
-
教えてください!旧字体について
-
起き上がりこぼしと起き上がり...
-
2chに登場するあほ稲さんと...
-
株式会社オール5 について
-
こんにちは。 PCの検索エンジン...
-
昔のホームページを閲覧するには
-
戒厳令・・・に続く言葉
-
スマホの最初の暗証番号の変更...
-
sketchup8(無償版)を探していま...
-
cronの読み方
-
0って正の数に入りますか??
-
CRAVING EXPLORERでの検索方法
-
天狗の羽団扇 販売
-
医龍のサージカルルーペについて
-
最近まで、「教えて!goo」の読...
-
世界四代文明で、エジプト文明...
-
厚別区上野幌2条一丁目 周辺の...
-
DAWの意味は?
-
10^0.301の求め方を教えてくだ...
おすすめ情報