プロが教える店舗&オフィスのセキュリティ対策術

別サイトのHTML内にある情報を自動取得して、自分のサイトに組込む方法を教えてください。

例えば、Yahooの新着情報部分だけを自動的に収集・抽出して、自分のサイト内にYahooの新着情報を表示させるようなイメージです。
インラインフレーム以外の方法で、自動取得して表示したいです。

データーベース をHTML化したものが別サーバにあるので、一部分だけ抽出し、イントラサイト内に新着情報としてシンプルな表示に加工して埋め込みたいのです。

ネットで調べたけどいまいち分からず…
方法の名称や、具体的な方法を教えてください。

A 回答 (1件)

クロールとかスクレイピングとか呼ばれています


ボットと呼ばれるプログラムが定期的に HTTP 通信を行い、HTML を取得して解析して必要な情報を取り出して蓄積する技法です

参考) 有名な実例
https://developers.google.com/search/docs/crawli …

ただしこれを業務として運用する際は、
他者から攻撃と見なされ訴訟問題に発展したり、
著作権侵害行為と判断され賠償請求されたりと、
技術的にも法務的にも危険がつきまとうので多大なる配慮が必要になります

参考) 技術的
https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E …

参考) 法務的
https://about.yahoo.co.jp/common/terms/chapter1/
Yahoo! JAPAN 利用規約
第1章 総則 7. 当社のサービスなどの再利用の禁止
お客様が、当社のサービスやそれらを構成するデータを、当該サービスの提供目的を超えて利用した場合、当社は、それらの行為を差し止める権利ならびにそれらの行為によってお客様が得た利益相当額を請求する権利を有します。

参考) 明確に禁止しているサイト
https://support.yahoo-net.jp/PccFinance/s/articl …
    • good
    • 0
この回答へのお礼

ありがとう

ありがとうございます!
スクレイピングというのですね!
自社イントラ内なので著作権は大丈夫ですが、高負荷がかからないように注意する必要がありそうですね…。

お礼日時:2023/06/15 10:42

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!