プロが教えるわが家の防犯対策術!

お世話になります。
いきなりですが長文失礼いたします。

現在、みなさんもご存知のアマゾン(amazon.co.jp)上の文字をキーワードとして集める作業を行っております。
これをスクレイピングなどを使い作業の自動化を行いたいのですが、
すでにこういう機能のツールがあったりしないか、
作るとしたらどれぐらいの規模でできるのかなどを知りたいです。

やっていることとしましては、
アマゾンのカテゴリー一覧(http://www.amazon.co.jp/gp/site-directory/)のカテゴリーを一つずつ掘っていき、キーワードの組み合わせを作っていっています。

例)
ベビー・おもちゃ・ホビー
 →楽器
  →ギター
   →エレキギター
    →ストラトキャスタータイプ
     →ブランド名

と掘っていき、この場合の最終成果物としてのキーワードは
「ストラトキャスター ブランド名」 (間にスペース)
としています。

できればこの間に以下のようなキーワードを生成したいと思っております。
・楽器 ギター
・エレキ ギター
・ギター ストラトキャスター
・商品名 エレキギター
etc...

その他のカテゴリーでは、商品の種類別以外にも機能別でも種別が分かれるので、
それらの文字情報も拾ってきて、キーワードの生成を行いたいです。
例)
ホーム&キッチン・ペット・DIY
 →キッチン家電
  →冷蔵庫・冷凍庫
   →冷蔵庫
のページにある「機能・特徴」の除菌、脱臭 など。


最終的にはそれらの文字情報を組み合わせ、
キーワードを生成したいと思っております。

特に2単語にこだわってもおらず、3単語になるものは3単語に組み合わせたり、
さらに多い単語数のものも欲しいと思っております。

欲をいえば、それらの単語の並び順も全パターンに並び替えてくれたりする機能があれば最高です。
例)
ギター ストラトキャスター
ストラトキャスター ギター
冷蔵庫 消臭 TOSHIBA
冷蔵庫 TOSHIBA 消臭
消臭 冷蔵庫 TOSHIBA
消臭 TOSHIBA 冷蔵庫
TOSHIBA 冷蔵庫 消臭
TOSHIBA 消臭 冷蔵庫


最終的には、アマゾン上の全商品を検索で出してこれるキーワードのリストを作成したいと思っております。

分かりにくい質問で申し訳ございませんが、みなさんの知恵を貸していただけませんか?

A 回答 (2件)

多大なアクセスで実害が有ったと判断するのはAmazon様なので、こちらで判断しても意味無いです。


遮断するのも、訴えるのも向こうの判断だけで行えますので、こっちの都合は関係ないですからね。
規約に明確に書いていなくても、どう処理するかはAmazonの判断です。
確実に言えるのは、普通の人間がページにアクセスする程度のアクセス程度であれば、業務妨害には問われないでしょう。
規約に書いてあるのは、こちらのサーバーに負荷をかけて勝手に情報を持って行くな!ってことを難しく書いてあるだけですから。

あと紐付けされたアカウント(アソシエイトやAmazonProductAPI)がある場合は、アカウント削除の恐れは高いです。
    • good
    • 2

Amazonは規約でクローリングやスクレイピングを禁止しているので、破った場合には軽くてアクセス禁止でしょうか。


ひどい場合は法的手段も問わないと思いますよ。

【引用】
この利用許可には、アマゾンサービスまたはそのコンテンツの転売および商業目的での利用、製品リスト、解説、価格などの収集と利用、アマゾンサービスまたはそのコンテンツの二次的利用、他社のために行うアカウント情報のダウンロードとコピー、データマイニング、ロボットなどのデータ収集・抽出ツールの使用は、一切含まれません。
http://www.amazon.co.jp/gp/help/customer/display …
    • good
    • 1
この回答へのお礼

ご回答どうもありがとうございます!

やはり、こういう類のものは大体は禁止されていますよね…。
利用規約には目を通していなかったので、挙げてくださり、どうもありがとうございます。

ですが、利用規約を読む限り、許可はされてないけれども、禁止もされてないかなぁと。
(まぁしないに越したことはないですが)

お礼日時:2015/08/02 22:04

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!