自動巡回＋一部のテキストを抽出するソフト探しています

Question

ホームページのデータを収集してEXCELで表にしたいのですが、ホームページのURLおよびHTMLソースは一定しているものの、収集したいデータは数百ページもあり、いちいちソースを開いて、探して抽出するのは非常に非効率で、途方にくれています。一定の連番の持つURL(予め用意したURLリスト)を自動巡回して、 HTML内の一部のテキスト(行指定して１行～数行)を抽出するソフト探しています。もちろんHTMLソースが一定の法則になっています。 (htmlタグは変わらないが、テキストとURLだけは違う・・・) 例えば、　http://www.***.com/data/1255.html 　http://www.***.com/data/1256.html 　http://www.***.com/data/1428.html のようにURLは一定していること。個別のHTMLソースでは例えば、 18行目の・・・『 ●●●●』　の●●●●だけを抽出するとか・・・　これをCSVやウェブでテキストベースで表示できれば幸いです。そのようなソフトはございますか？よろしくお願いします。

fuuten_no_neko · Accepted Answer

下記リンクのプログラムで一応読めます。
あまり試験していないので、どの程度一般性があるのかは判りません。不具合があれば「補足」して下さい。

参考URL：http://homepage3.nifty.com/tokutou-syuppan/program/WebSearch.htm

fuuten_no_neko · Answer

補足回答有り難うございます。しかしアプリケーションを具体化するにはもう少し不足があり(^^; ともかく >出来上がればぜひシェアウェアリリースしたいですねウーン、需要があれば公開する気はありますがフリーです。「ノウハウ提供したから . . . .」といわれたら困るなと思ったら >なお個人的に利用したいだけなので権利関係は興味ありませんということで、この件は問題なし。 >1.ある程度時間(例：30秒とか)経ったら、次のURLへ行くような感じが理想ですね。(結果では取得不可の数表示) マルチスレッドの経験がないのでこの際チャレンジしてみたいと。本件に関していえば、要するにＵＲＬからの応答を待たずに次も問合わせるということです。出来るかな？ >2.一つのドメインかつ一定のURLパターン(同じHTML構造を持つページ)に限定する方が良いと思います。他のドメインや違うURLを指定すると、正規表現などパターンが崩れると思います。ですから、予めパターン登録をして、「このＵＲＬはこのパターンに属する」みたいにＵＲＬ登録をするのかなと考えています >3.HTMLソースにある行の固定は必要ないと思います。ページによっては、ずれているケースがあると思います。これは当然ですが、それでも「範囲を数行に絞れないだろうか？」ということです。数百、数千行になると、 >抽出する箇所の前後のタグを指定すれば拾えると思います。が怪しくならないか？ >DB接続しているので、タグのパターンは変わらないと考えていますこれで安全なのでしょうか？何しろ具体的な対象ページを見たことがないもので(^^; >4.考えられます。この質問も、数百、数千行も離れる可能性があるかというもので . . . . >5.太文字とかは特にこだわりません。あくまでHTML上の文字を抽出するものですエーと、「正規表現」そのものをお尋ねするつもりはありませんでした。ただNo.の補足回答で >もしくは正規表現で、 >100,000 円 となっていたからです。これは ~/現在の価格：<\/TD> ?[0-9]+[,]+?[0-9] 円<\/b><\/TD><\/TR> みたいなことだったのでしょうか（スミマセン正規表現久し振りなので間違えているかも） >巡回結果 >"http://page10.auctions.yahoo.co.jp/jp/auction/m5263061","100,000 円" >"http://page3.auctions.yahoo.co.jp/jp/auction/c75181081","120,000 円" >"http://page10.auctions.yahoo.co.jp/jp/auction/m5394929","98,000 円" >・・・巡回結果をリストに吐き出すのはイメージ的に馴染みません。発展性（ロボット的に探索を無人遂行、複数パターン同時探索etc.）を考えるとリストではワケワカになるからです。で、アクセスへの記録を考えています。これから必要なデータを抽出してエクセルへ送るのは簡単なことだと思います。この部分までアプリケーションに作り込むか？アプリケーションの完成がお約束できないことを前提で申し訳ないが、ともかく具体的条件が明らかにならないと「試作」も出来ません。この「具体的」ということは、必ずしも現在oiranoiuさんが追いかけている物件を明らかにせよということではありません。たとえば上記「巡回結果」で試作しても問題ないのでしょうか？

fuuten_no_neko · Answer

面白そうですね。Webや文字列処理(正規表現)は不得手な分野なので興味が湧きます。取り敢えず複数ＵＲＬを巡回してテキストをダウンロードする部分は見通しが付きました。

そこで
１．数百を見て行くと、途中に繋がらない所が有った場合、タイムアウトになるまで待っていると非常に長時間かかる可能性がある。並列処理(スレッド)にするべきか？

２．「ショッピングサイトの商品ページ、各地域の天気予報ページ、市町村の議会録」と例が挙げられていましたが、当然質の違いは見るところの違いを招くと思います。ウーン、ＵＲＬに数種類の「属性」を付けて、それ毎に違う場所をサンプリングするのかな。

３．見る場所は少なくとも行で（数行以内に）固定なのでしょうか

４．見る場所の先頭位置からの距離(文字数、行数)はかなり多い(離れている)場合もあるのでしょうか

５．正規表現（検索）のパターンは（まさか）太字だけではないですよね

fuuten_no_neko · Answer

この件に関し、アプリケーション開発は興味があるものの、何時、どのようになるか不明確です。ある程度予想していたのですが、オークションなどを追いかけると理解し、その方面はまったく無知ですが、ベクターの関連カテゴリーなど調査されたのでしょうか？
既に調査済みであれば「このような点が不満」などの情報を頂けないでしょうか。

参考URL：http://search.vector.co.jp/search?query=%83I%81%5B%83N%83V%83%87%83%93&path=%2Fwin%2F

fuuten_no_neko · Answer

#1です。補足有り難うございます。しかしもう少し細かく

１．に関し、サーバ環境が現在ないのでＰＣでないと作業が始まらず、この点は良いのですが。「タイミング、あるいは間隔」は？常時(エンドレスループ)、１分置き、１時間置き、ユーザーによるトリガー、その他どのようなことになりますか

２．「データベース的に各ＵＲＬ毎」は判りましたが、ログ的に変化の記録を延々と残して行くのか、最新が判れば良いのか、基準がありそれとの差違が示されれば良いのか

fuuten_no_neko · Answer

残念ながらそのようなソフトは知りません。しかし興味はあるし、場合によっては練習に作っても良いと考えています。
そこで仕様ですが
・ダウンロードするタイミング、あるいは間隔
・差違が出た時、その部分だけリポートするのか、データベース的に各ＵＲＬ毎の変化を記録して行くのか
辺りはどのようなものでしょうか？

自動巡回＋一部のテキストを抽出するソフト探しています

下記リンクのプログラムで一応読めます。

補足回答有り難うございます。

面白そうですね。

この回答への補足

この件に関し、アプリケーション開発は興味があるものの、何時、どのようになるか不明確です。

この回答への補足

#1です。

この回答への補足

残念ながらそのようなソフトは知りません。

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング