
別サイトのHTML内にある情報を自動取得して、自分のサイトに組込む方法を教えてください。
例えば、Yahooの新着情報部分だけを自動的に収集・抽出して、自分のサイト内にYahooの新着情報を表示させるようなイメージです。
インラインフレーム以外の方法で、自動取得して表示したいです。
データーベース をHTML化したものが別サーバにあるので、一部分だけ抽出し、イントラサイト内に新着情報としてシンプルな表示に加工して埋め込みたいのです。
ネットで調べたけどいまいち分からず…
方法の名称や、具体的な方法を教えてください。
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
クロールとかスクレイピングとか呼ばれています
ボットと呼ばれるプログラムが定期的に HTTP 通信を行い、HTML を取得して解析して必要な情報を取り出して蓄積する技法です
参考) 有名な実例
https://developers.google.com/search/docs/crawli …
ただしこれを業務として運用する際は、
他者から攻撃と見なされ訴訟問題に発展したり、
著作権侵害行為と判断され賠償請求されたりと、
技術的にも法務的にも危険がつきまとうので多大なる配慮が必要になります
参考) 技術的
https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E …
参考) 法務的
https://about.yahoo.co.jp/common/terms/chapter1/
Yahoo! JAPAN 利用規約
第1章 総則 7. 当社のサービスなどの再利用の禁止
お客様が、当社のサービスやそれらを構成するデータを、当該サービスの提供目的を超えて利用した場合、当社は、それらの行為を差し止める権利ならびにそれらの行為によってお客様が得た利益相当額を請求する権利を有します。
参考) 明確に禁止しているサイト
https://support.yahoo-net.jp/PccFinance/s/articl …
ありがとうございます!
スクレイピングというのですね!
自社イントラ内なので著作権は大丈夫ですが、高負荷がかからないように注意する必要がありそうですね…。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「取得先」という表現について
-
Yahoo! JAPAN IDを新規取得でき...
-
get_headersでLast-Modified
-
コンビニで住民票を取得した場...
-
バッチファイルでPCのモデル名...
-
Excel VBA:特定の文字列以降(...
-
browscap.iniの最新版って
-
TreeViewのChild Node
-
VB2005でXMLデータから複数ある...
-
各クライアントマシンのログイ...
-
キーボードとマウスの入力を記...
-
VBSであるAD情報を取得したいで...
-
EXCEL、マクロ-改ページ行番号...
-
ps3で久しぶりにCDの音楽情報取...
-
VB or VBScriptでPCの製造番号...
-
vb6で、特定のフォルダを常時監...
-
Webページのテキスト文字を取得...
-
PHPでテキストファイルの行数を...
-
【C#】FindWindowExの使い方を...
-
Dosブロンプトでtabを出力したい
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
「取得先」という表現について
-
Excel VBA:特定の文字列以降(...
-
EXCEL、マクロ-改ページ行番号...
-
DMMの動画を全件取得したのです...
-
【C#】FindWindowExの使い方を...
-
各クライアントマシンのログイ...
-
(Win32)ファイルパスから物理ド...
-
Yahoo! JAPAN IDを新規取得でき...
-
PHPを使って、別サイトの一部を...
-
ps3で久しぶりにCDの音楽情報取...
-
ローカルのコンピュータ名を取...
-
VBブラウザに表示されているテ...
-
format関数について
-
ミュージックのアートワークを...
-
ドライブ文字からハードウェア...
-
IPアドレスとMACアドレスを取得...
-
VBAでPDFのアクティブページ番...
-
バッチファイルでPCのモデル名...
-
VB or VBScriptでPCの製造番号...
-
iphlpapiのGetAdaptersInfoでNI...
おすすめ情報