[已解决]爬虫问题求助

学习编程中的Ben · 发表于 2023-7-24 16:57:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

from bs4 import BeautifulSoup
import requests
import re
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.match("<a.*?/a>", str(w))
print(t)

复制代码

正则匹配后的结果尽然是空！
这是怎么回事？

最佳答案

月排行榜 / 总排行榜

isdkz

2023-7-24 16:58:45

这个问题的根源在于你正则表达式的使用方式。你尝试使用的正则表达式  <a.*?/a>  是尝试匹配一个以  <a  开头，以  /a>  结束的字符串。但是在使用  re.match  函数的时候，这个函数会从字符串的开始位置尝试匹配这个正则表达式。如果你的字符串开始的部分并不符合这个正则表达式，那么  re.match  就会返回  None 。

根据你的代码，你是想从 BeautifulSoup 解析出来的结果中找到所有的  <a>  标签。在这个情况下，其实没有必要使用正则表达式。你可以直接使用 BeautifulSoup 的  find_all  函数来寻找所有的  <a>  标签。以下是一个修改过的代码示例：

from bs4 import BeautifulSoup

import requests

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'

}

url = "https://www.17bxwx.com/dir/804/804839.htm"

response = requests.get(url=url, headers=headers)

bs = BeautifulSoup(response.text, "lxml")

w = bs.find("div", {"id": "list"}).find("dl")

t = w.find_all('a')

for link in t:

print(link)

复制代码

这段代码会找到所有的  <a>  标签并打印出来。如果你依然想使用正则表达式来进行匹配，那么你应该使用  re.findall  函数，而不是  re.match 。这是因为  re.findall  函数会找到字符串中所有符合正则表达式的部分，而不仅仅是从开始位置进行匹配。

如果你想使用正则表达式，那么代码可以修改为：

import re

from bs4 import BeautifulSoup

import requests

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'

}

url = "https://www.17bxwx.com/dir/804/804839.htm"

response = requests.get(url=url, headers=headers)

bs = BeautifulSoup(response.text, "lxml")

w = bs.find("div", {"id": "list"}).find("dl")

t = re.findall("<a.*?/a>", str(w))

for link in t:

print(link)

复制代码

这段代码会找到字符串中所有的  <a>  标签并打印出来。

跳转到最佳答案楼层

陶远航 · 发表于 2023-7-24 16:58:20

你的代码中，使用了 Beautiful Soup 库和 re 模块进行爬虫和正则表达式匹配。根据你提供的代码和问题描述，可能存在以下几个问题导致正则匹配结果为空：

1. 请求头错误：在发送请求时，你定义了一个名为 headers 的变量，但在实际使用时，却使用了一个名为 reheaders 的字典作为请求头。请确保使用正确的请求头字典来发送请求。

2. 正则表达式问题：你使用了 re.match() 方法进行正则匹配，但这个方法是严格匹配开头，所以无法匹配到 <a> 标签。你可以尝试改用 re.search() 方法进行非严格匹配，或者使用更加精确的正则表达式来匹配你想要的内容。

3. HTML 结构问题：<div id="list"> 可能是一个包含多个 <dl> 标签的父级元素，而不是直接包含一个 <dl> 标签。你可以尝试进一步查看父级元素的结构，或者调整代码以正确地定位到 <dl> 元素。

综上所述，请检查你的代码并确保以下几点：

· 确保使用正确的请求头字典发送请求。
· 选择合适的正则表达式方法，如使用非严格匹配的 re.search()。
· 确保正确地定位到所需的 HTML 元素，特别是父级元素。

如果你仍然遇到问题，请提供更多关于网页结构和想要提取的信息的详细信息，以便我能够更好地帮助你。
如果问题已经解决，请设置最佳答案

isdkz · 发表于 2023-7-24 16:58:45

这个问题的根源在于你正则表达式的使用方式。你尝试使用的正则表达式  <a.*?/a>  是尝试匹配一个以  <a  开头，以  /a>  结束的字符串。但是在使用  re.match  函数的时候，这个函数会从字符串的开始位置尝试匹配这个正则表达式。如果你的字符串开始的部分并不符合这个正则表达式，那么  re.match  就会返回  None 。

根据你的代码，你是想从 BeautifulSoup 解析出来的结果中找到所有的  <a>  标签。在这个情况下，其实没有必要使用正则表达式。你可以直接使用 BeautifulSoup 的  find_all  函数来寻找所有的  <a>  标签。以下是一个修改过的代码示例：

from bs4 import BeautifulSoup

import requests

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'

}

url = "https://www.17bxwx.com/dir/804/804839.htm"

response = requests.get(url=url, headers=headers)

bs = BeautifulSoup(response.text, "lxml")

w = bs.find("div", {"id": "list"}).find("dl")

t = w.find_all('a')

for link in t:

print(link)

复制代码

这段代码会找到所有的  <a>  标签并打印出来。如果你依然想使用正则表达式来进行匹配，那么你应该使用  re.findall  函数，而不是  re.match 。这是因为  re.findall  函数会找到字符串中所有符合正则表达式的部分，而不仅仅是从开始位置进行匹配。

如果你想使用正则表达式，那么代码可以修改为：

import re

from bs4 import BeautifulSoup

import requests

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'

}

url = "https://www.17bxwx.com/dir/804/804839.htm"

response = requests.get(url=url, headers=headers)

bs = BeautifulSoup(response.text, "lxml")

w = bs.find("div", {"id": "list"}).find("dl")

t = re.findall("<a.*?/a>", str(w))

for link in t:

print(link)

复制代码

这段代码会找到字符串中所有的  <a>  标签并打印出来。

Ewan-Ahiouy · 发表于 2023-7-24 16:59:59

无法访问？

歌者文明清理员 · 发表于 2023-7-24 17:00:18

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

账号		自动登录	找回密码
密码			立即注册