特定のWEB上の情報を収集して、自動的にDBに保存する方法

解決済

質問者：tenketu
質問日時：2008/01/26 22:22
回答数：2件

特定のWEB上の情報を収集して、自動的にDBに保存する方法を教えてください。

たとえば（あくまで例えばですが）、株価情報を株価情報のサイトから取得して、その情報を自前のサーバーのデータベースにいれる、というようなことをしたい考えているとします。

cronを使えば、定期的に何かを実行させることができる、というところまではわかったのですが、それ以上のことがわかりません。
おそらく、株価の情報サイトからHTMLのデータをひろってきて、そこから目的の値を抽出するのでしょうが、
１、どうやって（どのようなプログラム言語を使って）特定のサイトからHTMLのデータをひろってくるのか
２、どうやって（どのようなプログラム言語を使って）HTMLのデータから目的の値を抽出するか
３、どうやって（どのようなプログラム言語を使って）抽出した値をDB(mySQL)に保存するか

この３つが特にわからない（知りたい）のです。

ちなみに今私が知っている言語は、mySQL,PHP,Cくらいです。
また、これを実現しようとしている環境についてですが、OSはUnix系で、レンタルサーバーであるものとします。つまり、データのロードも抽出もDB更新もすべてレンタルサーバー上で行いたいと思っています。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (2件)

ベストアンサー優先
最新から表示
回答順に表示

No.2ベストアンサー

回答者： gentaro
回答日時：2008/01/27 16:26

基本的には、ブラウザを作成する、ということです。

1）ソケットで相手サーバーに接続してhttpリクエストを送る

2）返ってきたレスポンスからHTML記述を解析して欲しい情報を切り出す（スクレイピングという）。
この部分は＃１の方の言うとおりモジュールが出回っています。

3）各プログラム言語の方法(MySQLインターフェース）に依存します

スクレイピングの困ったところは、相手先の記述が変わった場合、
当然こちら側のプログラムも手直ししなければいけない、という点です
。
また、正式なブラウズではないので、相手側に迷惑をかけない方法を
考慮するのも大事ですね。
Last-Modifiedを見て、更新されていなかったら処理ストップ、など。