用Python做爬虫任务时，是否可以用BeautifulSoup取代正则表达式?

gux · 发表于 2021-11-21 19:40:44

您需要登录才可以下载或查看，没有账号？立即注册

x

例如在下面的代码中，tags 似乎比正则表达式更好用：

# Vollyball
# Data from https://en.volleyballworld.com/en/vnl/2019/women/resultsandranking/round1
from bs4 import BeautifulSoup
import requests
# import re
req = requests.get('https://en.volleyballworld.com/en/vnl/2019/women/resultsandranking/round1')
soup = BeautifulSoup(req.text, 'html.parser')
prePattern = soup.find_all('tr', 'group')
patternThrhd = 0 # We take pattern as prePattern[patternThrhd:].
# Setting patternThrhd
for item in prePattern:
tds = item.find_all('td')
if tds[1]['class'] == ['result--highlight']:
patternThrhd += 1
else:
break
pattern = prePattern[patternThrhd:] # pattern is the list of matches.
dict = {} # The dictionary of matches. The keywords are the numbers.
# td = pattern[0].find_all('td')
# print(td[3].string)
example = pattern[0].find_all('td')
indices = [1, 4, 5, 6, 7, 8, 10, 11]
for item in pattern:
tds = item.find_all('td')
dict[int(tds[0].string.replace('\r\n ', ''))] = \
tuple(tds[i].string.replace('\r\n ', '') for i in indices)
print(pattern)

复制代码

wp231957 · 发表于 2021-11-21 20:03:00

能抓耗子的就是好猫

kaohsing · 发表于 2021-11-21 20:06:51

适合自己的就是最好

小伤口 · 发表于 2021-11-21 20:27:09

这个视情况而定吧，存在即合理

柿子饼同学 · 发表于 2021-11-21 20:40:47

什么好用就用什么

账号		自动登录	找回密码
密码			立即注册

[技术交流] 用Python做爬虫任务时，是否可以用BeautifulSoup取代正则表达式?