学习编程中的Ben 发表于 2023-7-24 16:57:58

爬虫问题求助

from bs4 import BeautifulSoup
import requests
import re
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.match("<a.*?/a>", str(w))
print(t)

正则匹配后的结果尽然是空!
这是怎么回事?

陶远航 发表于 2023-7-24 16:58:20

你的代码中,使用了 Beautiful Soup 库和 re 模块进行爬虫和正则表达式匹配。根据你提供的代码和问题描述,可能存在以下几个问题导致正则匹配结果为空:

1. 请求头错误:在发送请求时,你定义了一个名为 headers 的变量,但在实际使用时,却使用了一个名为 reheaders 的字典作为请求头。请确保使用正确的请求头字典来发送请求。

2. 正则表达式问题:你使用了 re.match() 方法进行正则匹配,但这个方法是严格匹配开头,所以无法匹配到 <a> 标签。你可以尝试改用 re.search() 方法进行非严格匹配,或者使用更加精确的正则表达式来匹配你想要的内容。

3. HTML 结构问题:<div id="list"> 可能是一个包含多个 <dl> 标签的父级元素,而不是直接包含一个 <dl> 标签。你可以尝试进一步查看父级元素的结构,或者调整代码以正确地定位到 <dl> 元素。

综上所述,请检查你的代码并确保以下几点:

· 确保使用正确的请求头字典发送请求。
· 选择合适的正则表达式方法,如使用非严格匹配的 re.search()。
· 确保正确地定位到所需的 HTML 元素,特别是父级元素。

如果你仍然遇到问题,请提供更多关于网页结构和想要提取的信息的详细信息,以便我能够更好地帮助你。
如果问题已经解决,请设置最佳答案

isdkz 发表于 2023-7-24 16:58:45

这个问题的根源在于你正则表达式的使用方式。你尝试使用的正则表达式<a.*?/a>是尝试匹配一个以<a开头,以/a>结束的字符串。但是在使用re.match函数的时候,这个函数会从字符串的开始位置尝试匹配这个正则表达式。如果你的字符串开始的部分并不符合这个正则表达式,那么re.match就会返回None 。

根据你的代码,你是想从 BeautifulSoup 解析出来的结果中找到所有的<a>标签。在这个情况下,其实没有必要使用正则表达式。你可以直接使用 BeautifulSoup 的find_all函数来寻找所有的<a>标签。以下是一个修改过的代码示例:

from bs4 import BeautifulSoup
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = w.find_all('a')
for link in t:
    print(link)


这段代码会找到所有的<a>标签并打印出来。如果你依然想使用正则表达式来进行匹配,那么你应该使用re.findall函数,而不是re.match 。这是因为re.findall函数会找到字符串中所有符合正则表达式的部分,而不仅仅是从开始位置进行匹配。

如果你想使用正则表达式,那么代码可以修改为:

import re
from bs4 import BeautifulSoup
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.findall("<a.*?/a>", str(w))
for link in t:
    print(link)


这段代码会找到字符串中所有的<a>标签并打印出来。

Ewan-Ahiouy 发表于 2023-7-24 16:59:59

{:9_241:}无法访问?

歌者文明清理员 发表于 2023-7-24 17:00:18


ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))
页: [1]
查看完整版本: 爬虫问题求助