アプリ版:「スタンプのみでお礼する」機能のリリースについて

複数のWebページ(html)からテキストだけを抽出する作業を自動で行うツールが必要なのですが、知っているのがあれば教えて欲しいです。
または、それを開発するにはどの言語が教えてくださると嬉しいです。

Webページのテキストの一部でもいいですが、すべてを抽出しても構いません。

A 回答 (1件)

「テキストだけ」という条件は、HTMLソースコードからHTMLタグ部分を削除するという感じでしょうか?



であれば、web関係の関数を持ってる言語ならどんな言語でもいけると思いますよ。

なので、もう少し条件が必要です。
・ツールをwindowsから使えるGUIアプリで使いたいのか
・どこかサーバ上で動作させる
・webページの更新まで自動でやるのか
etc・・・

ちなみにPHPならサーバ上で動かす前提ですが、下のようなコードで出来ます。

//webページを読み込む
$res = file_get_contents('http://example.com');

//HTMLタグを除去する
$result = strip_tags($res);

$resultをファイルに保存する

という感じで一つのwebサイトを読み込むことが
出来るので(head内をどうするかとか、詳細は積める必要があります)
これに加えて、何らかの形で読みこみ先URLを保存しておいて、
ループで全部処理するような形にすれば自動的に処理が行えます。
    • good
    • 0
この回答へのお礼

僕にはまだ早かったみたいです。ありがとうございました。

お礼日時:2011/08/29 17:32

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!