アプリ版:「スタンプのみでお礼する」機能のリリースについて

Python初心者です。
Pythonで例えばFAX番号をどこかまとまってるサイトから抽出することは可能かと思いますが、
ホームページのディスクリプションに書いてあるFAX番号をサイト1つに付き1件ずつ抽出することは可能でしょうか?

A 回答 (2件)

以下を参考にすれば可能性はあるでしょう


https://www.google.com/search?q=python+web+scrap …

ですが

サイトごとに異なるページ構成や記載方法の中から、
目的の値を探しだす処理を作るのは大変ですので覚悟しましょう。
例)
正規表現パターンマッチ → よくある記載方法だった場合
自然言語処理 → 口語文内にて説明している場合
画像認識 → チラシ画像に番号を記載している場合
    • good
    • 0

Webページに書かれているFAX番号を抽出したい・・・ということでしょうか?


でしたらそのページのHTML構造を見てどの場所の文字列がFAX番号なのかを見分ける方法(アルゴリズム)を考え、それを行う処理を実装することになります。
ということで見分ける方法は言語仕様には依存しません。具体的にその方法をどう記述するかという文法は使用する言語に依存しますが。。。

なお、複数のWebサイト、Webサイトは同じでも複数のWebページにFAX番号の記載がある場合、WebサイトやWebページによってHTMLの書式が異なると考えるのが妥当ですからFAX番号の探し方はそれぞれ異なることになります。
その辺をよく理解して実装方法をお考え下さい。

参考まで。
    • good
    • 0

お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!