お世話になります。
ダウンロードソフトを探しています。
サイトのリンク先にある単語Aを含んだ情報を
抽出し、テキストやワード・エクセルにペーストしたいのです。
毎回ページを閲覧して、コピペしてたのですが、
大変要領が悪く、非効率でした。
数百ページにも及ぶともうお手上げです。
わかりづらいのですが例えば、研究者関連のサイトで、
雑誌名Aを特定検索かけると、雑誌名Aを含んだテキスト、
出版年Bを特定検索かけると、出版年Bを含んだテキスト、
と言った具合でリンク先を自動検索して抽出するソフトが
あれば大変大変助かります^^
さらには、サイトCに貼ってあるリンク先D,E,F,G,H,I...etc.
のリンクページなどにも自動検索してくれるともっと嬉しいです。
諸先輩方どうか助けてください・・・><
A 回答 (1件)
- 最新から表示
- 回答順に表示
No.1
- 回答日時:
抽象的な質問なので、答えにくいのですが、一般的にウェブページを自動的に解析して情報を抽出する技術のことを、「ウェブスクレイピング」といいます。
目的とするサイトごとにスクリプトを書くことになります。
質問の文章から察すると、ちょっと荷が重そうですね。
一応キーワードをあげておくとPerlないしRubyで、Mechanizeなどを使って書くことになります。
この回答への補足
notnotさまご回答ありがとうございます。
教えて頂いたキーワードで軽く調べたところ、
Web3.0的要素が高くまだまだ私には使いこなせそうにありません><
PHP素人かじりの私です><
簡単に言うと、スパイダーやクローラーのようなイメージの
ソフトを探していました。
ただ、アドレス収集が目的ではないので、困っているのです。
@認識の変わりに、単語認識とした抽出を狙っていました。
巷には、画像ファイルや動画などの自動ダウンロードソフトは
ごろごろ転がっているのですが、テキストとなると難しいみたいですね。
説明下手で申し訳ありませんでした。
もしもnotnotさまがおっしゃる方法を実行するならば、
http://www.testtest.ne.jp/test.html/test1.html
http://www.testtest.ne.jp/test.html/test2.html
http://www.testtest.ne.jp/test.html/test3.html
にある末端階層の情報を抽出するのには、
http://www.testtest.ne.jp/test階層
のスクリプトを記入するのではなく、
(この例だと1回)
http://www.testtest.ne.jp/test.html/test1.html階層
毎にスクリプト記入しなければならないのでしょうか?
(この例だと3回)
もしそうならば確かに荷が重いですね…^^;
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
似たような質問が見つかりました
- WordPress(ワードプレス) WordPressのサイトにPDFをアップロードした際にGoogleなどの検索結果に出ないでほしい 1 2022/08/03 10:44
- その他(プログラミング・Web制作) パイソンでのプログラミングについて 3 2022/08/11 20:31
- Excel(エクセル) エクセルデータからの必要項目抽出方法を教えてください 6 2022/08/12 15:55
- その他(Microsoft Office) Outlookメール 連絡先の検索について 〈 ご説明 〉 Windows PC の Outlook 1 2022/09/23 14:43
- Visual Basic(VBA) VBA Twitter 高度な検索 日付 単語 リンクをOutlook で送信 2 2022/06/18 18:36
- その他(開発・運用・管理) 「ネット検索だけでは十分な情報が得られません」 と言ったような内容の言葉をよく聞きます。 なぜ得られ 7 2022/04/26 09:39
- 邦楽 思い出せない歌のタイトル/歌詞について 質問が埋もれてしまったので二度目失礼します 学生時代(かなり 1 2022/04/08 23:21
- 教えて!goo 指摘されたので質問です 1 2022/04/17 14:11
- フリーソフト テキストファイル内を検索したい 1 2022/06/01 08:33
- Windows 10 Windows10 の設定?について (長文ですがよろしくお願いします)m(_ _)m 3 2022/05/14 12:22
関連するカテゴリからQ&Aを探す
おすすめ情報
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
フォームのテキストの入力数字...
-
テキストボックスの中身をリセ...
-
テキストボックスにセルの値を...
-
VB.NETで数十行のプログラムを...
-
IP Address 入力フォームについて
-
スクロールバーが一番したまで...
-
空白で入力フォームのボタンを...
-
テキスト内の重複文字検索
-
アクセスのフォームから検索を...
-
変数に256文字以上のテキストを...
-
テキストエリア内の文字列にリ...
-
値が無いと次へボタンを押して...
-
ホームぺージ制作で間違って重...
-
RPG(AS400)の本、サイトってあ...
-
2つのテキストファイルを比べて...
-
WebBrowserコントロールとMicro...
-
VBAからPDFのテキストフィールド
-
エディットボックス内での追記
-
vbs 割算のあまり
-
プログラミング、アーキテクチ...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
別のアプリケーションのテキス...
-
テキストボックスの中身をリセ...
-
テキストボックスにセルの値を...
-
変数に256文字以上のテキストを...
-
RPG(AS400)の本、サイトってあ...
-
ホームぺージ制作で間違って重...
-
VB6.0 でメニューを作りたいん...
-
改行含むテキストの表示の仕方
-
pdfのテキスト全文コピー、テキ...
-
VB.NET2005 DataGridViewでレコ...
-
コモンダイアログのshowopenに...
-
VBAでホームページからコピーし...
-
VS2008 C# ボタンのテキストを...
-
テキストエリア内の文字列にリ...
-
'2465'指定した式で参照してい...
-
VBAからPDFのテキストフィールド
-
チェックボックスのテキストを...
-
VBSでMid関数を使ったらエラー...
-
ドラッグ&ドロップからの取得
-
VB.NET メッセージボックスの表...
おすすめ情報