鱼C论坛

 找回密码
 立即注册
查看: 1806|回复: 4

[已解决]爬虫问题求助

[复制链接]
发表于 2023-7-24 16:57:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
from bs4 import BeautifulSoup
import requests
import re
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.match("<a.*?/a>", str(w))
print(t)
正则匹配后的结果尽然是空!
这是怎么回事?
最佳答案
2023-7-24 16:58:45
这个问题的根源在于你正则表达式的使用方式。你尝试使用的正则表达式  <a.*?/a>  是尝试匹配一个以  <a  开头,以  /a>  结束的字符串。但是在使用  re.match  函数的时候,这个函数会从字符串的开始位置尝试匹配这个正则表达式。如果你的字符串开始的部分并不符合这个正则表达式,那么  re.match  就会返回  None 。

根据你的代码,你是想从 BeautifulSoup 解析出来的结果中找到所有的  <a>  标签。在这个情况下,其实没有必要使用正则表达式。你可以直接使用 BeautifulSoup 的  find_all  函数来寻找所有的  <a>  标签。以下是一个修改过的代码示例:
from bs4 import BeautifulSoup
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = w.find_all('a')
for link in t:
    print(link)

这段代码会找到所有的  <a>  标签并打印出来。如果你依然想使用正则表达式来进行匹配,那么你应该使用  re.findall  函数,而不是  re.match 。这是因为  re.findall  函数会找到字符串中所有符合正则表达式的部分,而不仅仅是从开始位置进行匹配。

如果你想使用正则表达式,那么代码可以修改为:
import re
from bs4 import BeautifulSoup
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.findall("<a.*?/a>", str(w))
for link in t:
    print(link)

这段代码会找到字符串中所有的  <a>  标签并打印出来。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-7-24 16:58:20 | 显示全部楼层
你的代码中,使用了 Beautiful Soup 库和 re 模块进行爬虫和正则表达式匹配。根据你提供的代码和问题描述,可能存在以下几个问题导致正则匹配结果为空:

1. 请求头错误:在发送请求时,你定义了一个名为 headers 的变量,但在实际使用时,却使用了一个名为 reheaders 的字典作为请求头。请确保使用正确的请求头字典来发送请求。

2. 正则表达式问题:你使用了 re.match() 方法进行正则匹配,但这个方法是严格匹配开头,所以无法匹配到 <a> 标签。你可以尝试改用 re.search() 方法进行非严格匹配,或者使用更加精确的正则表达式来匹配你想要的内容。

3. HTML 结构问题:<div id="list"> 可能是一个包含多个 <dl> 标签的父级元素,而不是直接包含一个 <dl> 标签。你可以尝试进一步查看父级元素的结构,或者调整代码以正确地定位到 <dl> 元素。

综上所述,请检查你的代码并确保以下几点:

· 确保使用正确的请求头字典发送请求。
· 选择合适的正则表达式方法,如使用非严格匹配的 re.search()
· 确保正确地定位到所需的 HTML 元素,特别是父级元素。

如果你仍然遇到问题,请提供更多关于网页结构和想要提取的信息的详细信息,以便我能够更好地帮助你。
如果问题已经解决,请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-24 16:58:45 | 显示全部楼层    本楼为最佳答案   
这个问题的根源在于你正则表达式的使用方式。你尝试使用的正则表达式  <a.*?/a>  是尝试匹配一个以  <a  开头,以  /a>  结束的字符串。但是在使用  re.match  函数的时候,这个函数会从字符串的开始位置尝试匹配这个正则表达式。如果你的字符串开始的部分并不符合这个正则表达式,那么  re.match  就会返回  None 。

根据你的代码,你是想从 BeautifulSoup 解析出来的结果中找到所有的  <a>  标签。在这个情况下,其实没有必要使用正则表达式。你可以直接使用 BeautifulSoup 的  find_all  函数来寻找所有的  <a>  标签。以下是一个修改过的代码示例:
from bs4 import BeautifulSoup
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = w.find_all('a')
for link in t:
    print(link)

这段代码会找到所有的  <a>  标签并打印出来。如果你依然想使用正则表达式来进行匹配,那么你应该使用  re.findall  函数,而不是  re.match 。这是因为  re.findall  函数会找到字符串中所有符合正则表达式的部分,而不仅仅是从开始位置进行匹配。

如果你想使用正则表达式,那么代码可以修改为:
import re
from bs4 import BeautifulSoup
import requests

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
}
url = "https://www.17bxwx.com/dir/804/804839.htm"
response = requests.get(url=url, headers=headers)
bs = BeautifulSoup(response.text, "lxml")
w = bs.find("div", {"id": "list"}).find("dl")
t = re.findall("<a.*?/a>", str(w))
for link in t:
    print(link)

这段代码会找到字符串中所有的  <a>  标签并打印出来。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-24 16:59:59 | 显示全部楼层
无法访问?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-24 17:00:18 | 显示全部楼层

ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-26 08:47

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表