Pythonのスクレイピングの質問です。
こちらのランキングサイトから
clickCntが10000以上のタイトルをもってこようとしてます。(clickが1万以上のもの)
R18サイトになります↓
https://movie.eroterest.net/popular/?days=1
実際にコードを書いたのですが、このように
clickCntが10000以下のタイトルを表示されてしまいます。
['5', '位', 'アダルトのため規制(タイトルが表示されてます)']
['20,408click']
['6', '位', 'アダルトのため規制(タイトルが表示されてます)']
['25,900click']
['7', '位', 'アダルトのため規制(タイトルが表示されてます)']
['8', '位', 'アダルトのため規制(タイトルが表示されてます)']
clickCntが10000以下のものは、clickCntは表示されませんが、タイトルはでています。
どうしたら、
['5', '位', 'アダルトのため規制(タイトルが表示されてます)']
['20,408click']
['6', '位', 'アダルトのため規制(タイトルが表示されてます)']
['25,900click']
で止めることができるのでしょうか?
ソースコードです↓
# <div>タグのclassが'itemTitle'または'clickCnt'の要素をすべて取得
div_itemTitle_tags = soup.find_all('div', class_=lambda x: x in ['itemTitle', 'clickCnt'])
# iconGoodSiteクラスを持つ要素を削除します。
for div_item in div_itemTitle_tags:
for iconGoodSite_tag in div_item.find_all(class_='iconGoodSite'):
iconGoodSite_tag.extract()
# 数値が10000以上の要素だけを表示
for div_item in div_itemTitle_tags:
text_list = [x for x in div_item.stripped_strings]
if 'clickCnt' in div_item.get('class', []):
# 'clickCnt'の要素内のテキストを取得し、カンマを削除してから数値に変換
click_count_text = text_list[0]
click_count = int(re.sub(r'[^\d]', '', click_count_text))
if click_count >= 10000:
# 10000以上の場合、itemTitleを表示
print(text_list)
elif 'itemTitle' in div_item.get('class', []):
# itemTitleを表示
print(text_list)
お探しのQ&Aが見つからない時は、教えて!gooで質問しましょう!
関連するカテゴリからQ&Aを探す
おすすめ情報
- ・漫画をレンタルでお得に読める!
- ・一回も披露したことのない豆知識
- ・これ何て呼びますか
- ・チョコミントアイス
- ・初めて自分の家と他人の家が違う、と意識した時
- ・「これはヤバかったな」という遅刻エピソード
- ・これ何て呼びますか Part2
- ・許せない心理テスト
- ・この人頭いいなと思ったエピソード
- ・牛、豚、鶏、どれか一つ食べられなくなるとしたら?
- ・あなたの習慣について教えてください!!
- ・ハマっている「お菓子」を教えて!
- ・高校三年生の合唱祭で何を歌いましたか?
- ・【大喜利】【投稿~11/1】 存在しそうで存在しないモノマネ芸人の名前を教えてください
- ・好きなおでんの具材ドラフト会議しましょう
- ・餃子を食べるとき、何をつけますか?
- ・あなたの「必」の書き順を教えてください
- ・ギリギリ行けるお一人様のライン
- ・10代と話して驚いたこと
- ・家の中でのこだわりスペースはどこですか?
- ・つい集めてしまうものはなんですか?
- ・自分のセンスや笑いの好みに影響を受けた作品を教えて
- ・【お題】引っかけ問題(締め切り10月27日(日)23時)
- ・大人になっても苦手な食べ物、ありますか?
- ・14歳の自分に衝撃の事実を告げてください
- ・架空の映画のネタバレレビュー
- ・「お昼の放送」の思い出
- ・昨日見た夢を教えて下さい
- ・ちょっと先の未来クイズ第4問
- ・【大喜利】【投稿~10/21(月)】買ったばかりの自転車を分解してひと言
- ・メモのコツを教えてください!
- ・CDの保有枚数を教えてください
- ・ホテルを選ぶとき、これだけは譲れない条件TOP3は?
- ・家・車以外で、人生で一番奮発した買い物
- ・人生最悪の忘れ物
- ・【コナン30周年】嘘でしょ!?と思った○○周年を教えて【ハルヒ20周年】
- ・10秒目をつむったら…
- ・人生のプチ美学を教えてください!!
- ・あなたの習慣について教えてください!!
- ・都道府県穴埋めゲーム
デイリーランキングこのカテゴリの人気デイリーQ&Aランキング
-
アセンブリ言語について。
-
フロントエンドエンジニアをし...
-
プログラミングのやり方ざっく...
-
AIのプログラムについて教えて...
-
プログラミングについて プログ...
-
プログラミングの進学について
-
fortran write文について マチ...
-
コトリン言語について。
-
Google ColaboでGUI作成
-
vba クリップボードクリアにつ...
-
ホログラムを作ってくれる会社...
-
・オブジェクト指向のメリット...
-
python エラー
-
長門有希のようにコンピュータ...
-
Google Colabでimport soxが出...
-
マイクロソフトがvbを捨てたの...
-
batファイル、コマンドプロンプ...
-
プログラミングを学ぼうと思い...
-
初心者powershellのPS1ファイル...
-
そのまま使っただけなのに・・...
マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング
-
Pythonのスクレイピングの質問...
-
vb2019でHTMLの取得
-
C# htmlの一部の文字取得
-
どうしてもボタンが横一列に並...
-
SeeSaaブログに前ページへリン...
-
Excel で下線が消えてしまうの...
-
URLが青くならない
-
パワーポイント:テキストボッ...
-
リンク先のURLを別の文字にする...
-
Google Keepで数字に勝手に下線...
-
Word で下線の色の変え方
-
アンダースコア(下線)のあるメ...
-
HTMLのbody内に<style>~</styl...
-
アンダーラインを引くやり方
-
AppleのNumbersというアプリで...
-
Latexにおける下線のひき方のコト
-
CSSでインラインフレームを非表...
-
outlook2003にて新規メッセージ...
-
E-mail中の文章に赤で下線を引...
-
WORD2010 ハイパーリンクの下線...
おすすめ情報