あなたの習慣について教えてください!!

インターネットからサイトにアクセスして自動で情報を集めたいと考えています(例えば、yahooファイナンスから株価を集めたり、google scholarなどで論文を集めたり)。

そこで、
クライアント側でhttp接続を行い、
htmlを解析して必要な情報だけを抽出したい、
というときにおすすめの言語はありますでしょうか。

あまり本格的なものを作るわけではないので、できるだけ簡単?に作成できるものを希望します。
特にhttp接続の方法がよくわからないので、そこをお手軽にできるものを教えて頂ければありがたいです。

JavaやJava Scriptで作成を試みたのですが、なかなか進まないので質問に至った次第です。(Java: Jakarta Commonsのhttp cliantを使用したがビルド方法が分からず、Java Script: http接続法が分からず)
よろしくお願いします。

A 回答 (3件)

Rubyですかね。



Mechanizeライブラリを使えば、ログインとか、Basic認証とか、クッキーとかお任せです。

http://www.google.co.jp/search?q=ruby+mechanize+ …

PerlがMechanizeの本家のようですが、現時点でどちらも知らないのであればRubyがわかりやすいのでおすすめです。
    • good
    • 0
この回答へのお礼

回答をありがとうございます。Rubyは元々興味もあったので、早速調べてみたいと思います。

お礼日時:2011/10/02 17:45

サイトのhtmlの取得には外部のwgetを利用して


取得したhtmlの解析にはDOMが扱える言語でやるのが一番楽でしょう。
(もっとも言語の方でhttp接続のAPIがあるならそっちをりようすればいい。なければwgetを利用する)
そうすれば自分でhtmlの構文解析のプログラムを書く必要がない。
    • good
    • 0
この回答へのお礼

回答ありがとうございます。DOMは始めて知りました。調べてみます。

お礼日時:2011/10/07 09:34

ネットワーク系は、JAVAやC#も強いという話ですよー。



とはいえ、それくらいなら、PHPも含めて、何でもできるような。
JavaScriptでは、ムリなんじゃないかな?
    • good
    • 0
この回答へのお礼

回答ありがとうございます。JavaはEclipseを使っていたのですが、別のを作った時にEclipse以外から動かすためのビルドの方法が分からず中断していました。もう一回チャレンジしてみる価値はありますかね?!

お礼日時:2011/10/02 18:55

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!