No.2ベストアンサー
- 回答日時:
>どのような言語
大抵のプログラミング言語でできます。
ウェブページはHTMLなどのコードで構成されています。
スクレイピングはそのコードを取得して、解析することによって情報を得るのです。
言うなれば、この質問ページもHTMLなどのコードをブラウザで解析して表示させているのですが、
スクレイピングは「ある特定の部分を取り出す」ことによって情報を得ます。
例えば添付した画像はこのページのHTMLの一部分ですが、
titleタグに挟まれた部分が、このページのタイトルとなっています。
つまり、タイトルを取得したいなら
HTMLのコードを解析し、titleタグで挟まれた部分を取り出します。
これがスクレイピングです。「パース」するとも言いますね。
では、HTMLからどのようにしてtitleという文字を見つけ出しているのでしょうか?
これは「正規表現」という、文字列のパターンを解析する技術を使います。
titleタグを取得する程度なら簡単ですが、
例えばあるページの電話番号を取得したい場合などにこの「正規表現」が使われます。
またこの正規表現を利用すれば、HTMLの中のURLなどを取り出すことができます。
そうすれば、そのURLのリンク先のページをまたスクレイピングまたはパースすることができます。
そうやって、どんどんリンクを辿って情報を取得することも可能です。
この様な仕組みを「クロール」と呼びます。
グーグルなどの検索エンジン(クローラとも言います)は上記のような仕組みで
ありとあらゆるウェブページの情報を取得しています。
今はスクレイピング等は様々なライブラリが作られていますので、
一から正規表現を書かなくても作ることができます。
以下のような本も何冊か出ているので読んでみてはいかがでしょうか?
http://www.amazon.co.jp/dp/4797380357/
No.3
- 回答日時:
http://www.amazon.co.jp/s/search-alias=aps&field …
このあたりから本を選んでください。
現在PHPが得意だと言うことでも無い限り、PHPを使う理由は無いです。
「Rubyによるクローラー開発技法」がお勧めです。
このあたりから本を選んでください。
現在PHPが得意だと言うことでも無い限り、PHPを使う理由は無いです。
「Rubyによるクローラー開発技法」がお勧めです。
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- その他(プログラミング・Web制作) パイソン。スクレイピング。Chromeドライバーの使い方を教えてください。 1 2023/06/14 21:55
- その他(開発・運用・管理) Beutiful Soupを用いてWebスクレイピングを行おうと考えているのですが、 <meta n 1 2022/06/01 20:18
- Excel(エクセル) VBA : スクレイピングできない 4 2023/05/12 22:26
- Visual Basic(VBA) <excel vba>selenium basicのWebDriverの自動更新のエラーについて 1 2022/10/01 17:07
- Visual Basic(VBA) excel vbaでselenium basic 3 2022/10/02 12:35
- Windows 10 Windowsのタイムスケジューラーについての質問です。 先日、Webスクレイピング用のプログラムを 1 2022/09/28 05:51
- 日本語 自動詞と他動詞に関して 5 2022/11/15 21:03
- その他(IT・Webサービス) サイト。お問い合わせコードを抜き取り、このコードに、返信文字を入力 して、相手に送信は可能ですか。 1 2023/05/18 13:18
- サーバー 無料のレンタルサーバで、スクレイピング(?)はできますか? 2 2022/05/07 10:09
- その他(プログラミング・Web制作) プログラムの勉強のおすすめは 7 2022/12/09 20:09
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
「取得先」という表現について
-
アクセスの度にIPアドレスを変...
-
ローカルのコンピュータ名を取...
-
ps3で久しぶりにCDの音楽情報取...
-
format関数について
-
Yahoo! JAPAN IDを新規取得でき...
-
個人向けルーターを使用してもS...
-
IPアドレスとMACアドレスを取得...
-
ImmGetConversionListについて
-
ミュージックのアートワークを...
-
自動車教習所について 質問 普...
-
Excel VBA:特定の文字列以降(...
-
【VBA】EXCELブックを開かずに...
-
VBS「開いているページ」のURL...
-
IEを使わないでhtmlテキストを...
-
VBAでPDFファイルの文書のプロ...
-
MACアドレスのベンダーコードの...
-
PHPを使って、別サイトの一部を...
-
get_headersでLast-Modified
-
Windows バージョン(種類)の...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
「取得先」という表現について
-
IEを使わないでhtmlテキストを...
-
Yahoo! JAPAN IDを新規取得でき...
-
不正競争防止法に該当するので...
-
ps3で久しぶりにCDの音楽情報取...
-
format関数について
-
【VBA】EXCELブックを開かずに...
-
自動車教習所について 質問 普...
-
Excel VBA:特定の文字列以降(...
-
VBAでPDFファイルの文書のプロ...
-
【C#】FindWindowExの使い方を...
-
ミュージックのアートワークを...
-
アクセスの度にIPアドレスを変...
-
ローカルのコンピュータ名を取...
-
各クライアントマシンのログイ...
-
IPアドレスとMACアドレスを取得...
-
積立投資してます。現在平均取...
-
VB or VBScriptでPCの製造番号...
-
VBS「開いているページ」のURL...
-
EXCEL、マクロ-改ページ行番号...
おすすめ情報