サイトからソースの取得した後について。

締切済

質問者：mozukux382
質問日時：2007/03/01 21:25
回答数：1件

サイトからソースを取得することはできるのですが、
そのソースからほしいデータを抽出するうまいやり方がわかりません。

具体的には
http://table.yahoo.co.jp/t?c=2006&a=5&b=8&f=2006 …
↑のようなサイトからデータの部分だけをメモ帳に移したいです。
どのようにすればいいですか?
ちなみに今は strtok 関数を使って無理やりアルファベットを取り除いていますが、
エラーが多いです。

通報する

この質問への回答は締め切られました。

質問の本文を隠す

回答 (1件)

最新から表示
回答順に表示

No.1

回答者： Oh-Orange
回答日時：2007/03/01 22:11

★文字列を検索して解読するしかないと思います。

・アルゴリズムとしては、
　(1)『<td>』を検索します。→strpbrk関数で検索。
　(2)見つかったポインタに +11 を加えれば、『<td>』に続くデータの先頭位置になります。
　(3)(2)のデータの先頭から『<』文字までを抽出します。
　　『<』文字をNULL文字に書き換えれば、データの先頭から普通の文字列として扱えます。
　(4)(3)のデータの末尾から +1 の位置より、『<td>』を再検索します。→(1)へジャンプ
・上記を繰り返せば、TABLE タグのデータを取り出せます。
・あと途中に『』と『』の部分があるので『<td>』を検索した後にポインタを +11 して
　『』文字列の先頭の場合は『』をスキップします。→ポインタを +3 進める。
・後ろにある『』は『<』文字としてデータの末尾としているので(3)と同じです。
・HTMLソースを行単位で処理しても良いし、全てをメモリに読み込んで検索しても良いでしょう。
・以上。おわり。→行単位で文字列を解読しましょう。