爬虫问题求助,Python交流,编程语言专区,鱼C论坛

学习编程中的Ben 发表于 2023-7-24 16:57:58

爬虫问题求助

from bs4 import BeautifulSoup
import requests
import re
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.match("<a.*?/a>", str(w))
print(t)

正则匹配后的结果尽然是空！
这是怎么回事？

陶远航 发表于 2023-7-24 16:58:20

你的代码中，使用了 Beautiful Soup 库和 re 模块进行爬虫和正则表达式匹配。根据你提供的代码和问题描述，可能存在以下几个问题导致正则匹配结果为空：

1. 请求头错误：在发送请求时，你定义了一个名为 headers 的变量，但在实际使用时，却使用了一个名为 reheaders 的字典作为请求头。请确保使用正确的请求头字典来发送请求。

2. 正则表达式问题：你使用了 re.match() 方法进行正则匹配，但这个方法是严格匹配开头，所以无法匹配到 <a> 标签。你可以尝试改用 re.search() 方法进行非严格匹配，或者使用更加精确的正则表达式来匹配你想要的内容。

3. HTML 结构问题：<div id="list"> 可能是一个包含多个 <dl> 标签的父级元素，而不是直接包含一个 <dl> 标签。你可以尝试进一步查看父级元素的结构，或者调整代码以正确地定位到 <dl> 元素。

综上所述，请检查你的代码并确保以下几点：

· 确保使用正确的请求头字典发送请求。
· 选择合适的正则表达式方法，如使用非严格匹配的 re.search()。
· 确保正确地定位到所需的 HTML 元素，特别是父级元素。

如果你仍然遇到问题，请提供更多关于网页结构和想要提取的信息的详细信息，以便我能够更好地帮助你。
如果问题已经解决，请设置最佳答案

isdkz 发表于 2023-7-24 16:58:45

这个问题的根源在于你正则表达式的使用方式。你尝试使用的正则表达式<a.*?/a>是尝试匹配一个以<a开头，以/a>结束的字符串。但是在使用re.match函数的时候，这个函数会从字符串的开始位置尝试匹配这个正则表达式。如果你的字符串开始的部分并不符合这个正则表达式，那么re.match就会返回None 。

根据你的代码，你是想从 BeautifulSoup 解析出来的结果中找到所有的<a>标签。在这个情况下，其实没有必要使用正则表达式。你可以直接使用 BeautifulSoup 的find_all函数来寻找所有的<a>标签。以下是一个修改过的代码示例：

from bs4 import BeautifulSoup
import requests

headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = w.find_all('a')
for link in t:
print(link)

这段代码会找到所有的<a>标签并打印出来。如果你依然想使用正则表达式来进行匹配，那么你应该使用re.findall函数，而不是re.match 。这是因为re.findall函数会找到字符串中所有符合正则表达式的部分，而不仅仅是从开始位置进行匹配。

如果你想使用正则表达式，那么代码可以修改为：

import re
from bs4 import BeautifulSoup
import requests

headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.findall("<a.*?/a>", str(w))
for link in t:
print(link)

这段代码会找到字符串中所有的<a>标签并打印出来。

Ewan-Ahiouy 发表于 2023-7-24 16:59:59

{:9_241:}无法访问？

歌者文明清理员 发表于 2023-7-24 17:00:18

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

页: [1]

鱼C论坛's Archiver

爬虫问题求助