
Google検索結果に対して、スクレイピングを実行したい。
Webサイト上で、JavaScriptなどの処理で、
バックグラウンドでGoogleカスタム検索などを使用して、
複数サイトに対して検索後、Googleの検索結果に対して、
データを加工して、サイト上に一覧表示したいと考えております。
サーバー負荷を考慮して、クライアントサイドスクリプトのJavaScriptを
検討しておりますが、他に最適な言語はありますでしょうか?
【質問まとめ】
1.スクレイピングの実行処理をサイト閲覧者に分からないようにバックグラウンドで実行する事は可能でしょうか?
2.Google検索結果に対して、データを加工する事は可能でしょうか?
3.サーバ負荷が掛かりにくい最適な言語について
以上、ご教示頂けますと幸いです。
宜しくお願い致します。
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
質問の物言いに妙にひっかかるのですが、要するにこれまでのスクレイピングに対して、端的にいえば、
・Ajaxなどを使い「jsベース」で描画するWebが増えたので、スクレイピングしにくい
・Ajaxで行っているDOM評価や値抽出は、従来のスクレイピングと同じことでは?
・サーバサイドスクレイピングの存在意義は?
ということではないでしょうか。
「サーバ負荷を考えて」とかおっしゃいますが、そもそも以前から、クライアントサイドでAjax使いデータを取得するほうが、サーバでスクレイピングせるより何倍も簡単で、ただ処理系が泥臭いjavascriptしかなく、しかも処理内容が丸見えで、他人様のデータを勝手に吸い上げているのがバレバレ、ということだけで、負荷の問題ではありません。
そもそもサーバ負荷などというのは一般論ではなく、スクレイピング手法とサーバエンジンの組み合わせや、データ設計で決まる話なので、「サーバ負荷を考えてクライアントでjavascript」というのは論法がおかしいです。
サーバサイドでXmlHttpモジュールを動かして、Ajaxデータを直にスクレイピングすれば、負荷は非常に軽いし、現在のサーバサイドjavascriptエンジンも動作は最適化されており、きわめて高速に動作します。
「サーバでAjaxスクレイピング」というのは、HTMLページ上のjavascriptを読みだしてうんちゃらするクライアントベースとは、全然次元が違うのですわ。
結論から言えば、サーバサイド一択です。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
jqGridの入力内容をサーバに保...
-
system関数を使用時にDos窓を最...
-
JSPの処理の途中で、JavaScript...
-
csvファイルを読み込み、該当項...
-
漢字などを正規表現でパターン...
-
PowerPointで時計表示
-
VBScript から JavaScript を呼...
-
F5の更新を無効にしたい
-
resizeToメソッドが動作しません
-
Excelのマクロ一括実行ができな...
-
Excel vba 配列内の最大値を求...
-
innerHTMLなどの反映タイミング
-
ブラウザからエクセルを開く方法
-
エクセル 半角英数6文字以上 ...
-
正規表現について
-
入力された文字を1文字ずつチ...
-
contenteditableで編集した内容...
-
GoTo文とかSelect文の処理の仕...
-
javascriptでフォルダ内のファ...
-
CTRL + Xを無効にしたい
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
仮アップ?
-
プルダウンリストを作りMySQLか...
-
JavaScriptを使用して、クライ...
-
JavaScriptの負荷について
-
独自の検索エンジンを作るには!?
-
Node.jsのWebプログラム(javasc...
-
Session切れ前にWarningメッセージ
-
PHPとjavascriptで共通なエンコ...
-
PHPとJavaとC#の違い
-
PHPができればJavaScriptは...
-
二択質問作ってその成績表を横...
-
セレクトで都道府県から市区町...
-
IEでalertのみを無効にする方法...
-
CSJSとSSJSの違い
-
最強のオセロ、リバーシ!
-
リアルタイム表示ホームページ...
-
ajaxを使用した場合にPHP出力文...
-
JSONPの使い方について詳しい方...
-
特定のURLからのアクセスがあっ...
-
ASPでエクセルの起動
おすすめ情報