既存エンジンを利用したHTML＆PHPの検索・取得は不可能？

Question

PHPで、URL抽出をしたいと思っています。たとえば、gooのブログ検索などの検索エンジンを利用して、そこから返されたURLの取得、もしくは返されたHTMLのソース取得のどちらかをしたいと思っています。つまり、既存の検索エンジンを利用したいと思っているのですが・・・とりあえずこんなHTMLをかいたのですが。 ______________________________________________________________________________ _____________________________________________________________________________________ これはただHTMLでフォームを作って、gooにキーワードを飛ばすだけなのですが、この後表示される（帰ってくる）URLをPHPなどで取得することはできないでしょうか？取得して、違うプログラムで利用したいと考えています。しかし、個人的に色々考えたのですが、PHPだと物理的に無理な気がしてきました。ただ、HTMLに埋め込むならPHPがいいのかなと思いました。だれかわかる人いますでしょうか？どうかPHPに精通している方、ぜひ宜しくお願いしますm(_ _)m

yyr446 · Accepted Answer

yyr446です。
＜＜自作サーバで以上を正常に動作させられないのですが、
PHPの設定で必要なことってありますでしょうか？＞＞
自作サーバ？　windows or lynux or other 　バージョン？
私のは
http://www.my-sv.net/server.shtml
のレンタルサーバーです。
別途質問を起てた方が回答がつきやすいと思います。

yyr446 · Answer

No1,No2,No3の連続回答者です（申し訳ない。）結局、私もよそでも質問して、日本語を正しくパースできるようなサンプルにする事ができましたので、一応載せておきます。 ※リクエストのパラメーター以外は全部UTF-8にして処理しています。 ※リンク部分の取得はXpathのクエリーを使って簡潔にしました。 GooSarch PHP

","",$data); $dom = new DOMDocument(); @$dom->loadHTML($data); $dom->normalize(); $xpath = new DOMXPath($dom); $query = '//div[@id="incontents"]//div[@class="group_time_box"]//li/div[@class="title"]/a[1]'; $entries = $xpath->query($query); foreach($entries as $entry){ echo ''.$entry->textContent.'' .'
'; } ?>

yyr446 · Answer

回答者yyr446です。No.3の補足への回答です。
＜変なURLが出力されました。どうやら文字化けした「罍」という漢字の検索結果？のようなものが出てしまいました…（泣）＞
ですが、変ではありません。

HTTPで通信する時、日本語や特殊文字はは%xx%xx...みたいにエンコードし
ます。
（ブラウザーはアドレス欄やサブミットメソッドを自動でエンコードします）。

　NO.2のプログラムは文字コードをUTF-8で保存してあります。
私のphpは内部エンコードがUTF-8となっています。htmlのメタタグ
でもcharset=UTF-8"としてあり、出力はUTF-8になっています。
従ってフォームでGETされるパラメータはUTF-8の文字コードの漢字
を%エンコードされた物です。これをphpの$_GETで参照すると
%がデコードされたUTF-8の漢字になります。(この辺が私もよくわからん)
次に、検索用URIを作るために、http_build_query()関数を使います。
これがUTF-8の漢字を％エンコードしなおします。
それをそのままechoするなら漢字は出ません。
検索先のgooのページはUTF-8のリクエストを受けてくれますが、
出力はgooのページですから当然別の文字コード"EUC-JP"です。
これを自分のページ内に無理やり出すため、
echo mb_convert_encoding(urldecode(htmlspecialchars($data)),"UTF-8","auto");
で、UTF-8に直して、かつタグの影響を受けないようhtmlspecialchars()
もやっています。

それからNo.4のサンプルは、やはり文字コードの取り扱いをまったく
考慮してないので、とりあえず参考にとどめておいて下さい。

yyr446 · Answer

適当ですが、返されたHTMLから、検索結果のリンクの部分だけ抜き出すようにDOMクラスを使って作ってみました。（日本語文字コードのハンドリングがでたらめになってしまっている！） GooSarch PHP

encoding="EUC-JP"; @$dom->loadHTML($data); $doc=$dom->documentElement; $nodes=$doc->getElementsByTagName('div'); foreach ($nodes as $node) { if($node->getAttribute('id') =="incontents"){ $incontents = $node->getElementsByTagName('div'); foreach ($incontents as $node){ if($node->getAttribute('class') == "group_time_box"){ $li = $node->getElementsByTagName('li'); foreach($li as $node){ $div=$node->getElementsByTagName('div'); foreach($div as $node){ if($node->getAttribute('class')=="title"){ $link=$node->getElementsByTagName('a'); $a=$link->item(0); echo '' .$a->textContent. '' .'
'; echo '' .'
'; } } } } } } } ?>

yyr446 · Answer

＃No2の回答の
$parm=rawurldecode(http_build_query($_GET));
は余分です。（消し忘れ）

yyr446 · Answer

formのaction属性を自分自身にしてキーを受け取り、 file_get_contents()関数でURLとキーをセットしたURI指定を指定して取得したhtmlを変数に格納できます。これをパースしてurl部分を取り出せばよいと思います。（変数に格納するまでのサンプル） GooSarch PHP

UmJammer · Answer

ひとつの方法としては、cURLというモジュールの利用が考えられます。
http://www.php.net/manual/ja/book.curl.php

既存エンジンを利用したHTML＆PHPの検索・取得は不可能？

yyr446です。

No1,No2,No3の連続回答者です（申し訳ない。

この回答への補足

回答者yyr446です。

適当ですが、返されたHTMLから、検索結果のリンクの部分だけ

＃No2の回答の

この回答への補足

formのaction属性を自分自身にしてキーを受け取り、

この回答への補足

ひとつの方法としては、cURLというモジュールの利用が考えられます。

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング