[已解决]看看这个函数，关于正则

wp231957 · 发表于 2023-4-29 20:33:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

def get_property(resp,param):
s=re.findall(f"dt.+({param}).+?(.+?)",resp,re.S)
s.insert(0,("产品名称",get_product_name(resp)))
if len(s)>1:
 print (s[1][0],s[1][1].replace("\n","").replace(" ","").replace(" ","").replace(">","").replace("gt",""))
else:
 print (param,None)

看看这个红色部分，为啥大部分指标都能用而个别指标 却无法取到最近的span 标签 而是取到了最后一个span，难道.+? 还无法截断吗

最佳答案

月排行榜 / 总排行榜

Threebody1

2023-4-29 20:34:42

.*?

跳转到最佳答案楼层

Threebody1 · 发表于 2023-4-29 20:34:42

isdkz · 发表于 2023-4-29 20:36:17

这个函数看起来是用来从 HTML 文本中提取特定参数的值的。函数使用正则表达式 re.findall 从 resp 字符串中查找满足特定模式的子串，然后将提取到的信息插入到列表 s 中。 s 的第一个元素是产品名称，接下来的元素是其他参数的值。

正则表达式模式如下：

f"dt.+({param}).+?(.+?)"

复制代码

其中 param 是要查找的参数名称。

这个正则表达式的主要部分是：
1. dt.+({param}) : 查找字符串 "dt" 后紧跟的任意字符和参数名称。
2. .+? : 紧跟在参数名称后面的任意字符，直到找到第一个 标签。
3. (.+?) : 提取 标签内的文本。

如果某些参数无法取到最近的 标签，可能是因为在参数名称和 标签之间的文本与正则表达式的匹配模式不符。正则表达式使用的是非贪婪匹配 .+? ，它会尽量少地匹配字符。理论上，这个表达式应该可以匹配到最近的 标签。

出现问题的原因可能有以下几点：
1. 参数名称或 标签之间有其他 HTML 标签，使得正则表达式无法匹配。
2. HTML 文本中存在嵌套的 标签，导致正则表达式提取错误。

为了解决这个问题，你可以尝试调整正则表达式以更精确地匹配文本。此外，使用像 BeautifulSoup 这样的 HTML 解析库可能更容易处理这种问题，因为它可以更准确地解析和遍历 HTML 文档结构。

wp231957 · 发表于 2023-4-29 20:38:29

Threebody1 发表于 2023-4-29 20:34
.*?

好像搞定了，我先给你最佳，然后我再进一步测试

wp231957 · 发表于 2023-4-29 20:40:08

isdkz 发表于 2023-4-29 20:36
这个函数看起来是用来从 HTML 文本中提取特定参数的值的。函数使用正则表达式 re.findall 从 resp 字符 ...

没办法解析，才用得正则，那个网站好没规律啊静态解析（除了正则）其他都用不了

wp231957 · 发表于 2023-4-29 21:08:19

Threebody1 发表于 2023-4-29 20:34
.*?

不行啊还是无法截断他会一直向后取直到取到最后一个span标签

Threebody1 · 发表于 2023-4-29 21:11:48

wp231957 发表于 2023-4-29 21:08
不行啊还是无法截断他会一直向后取直到取到最后一个span标签

？

Python 3.9.9 (tags/v3.9.9:ccb0e6a, Nov 15 2021, 18:08:50) [MSC v.1929 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> re.match('<span.*?>', '11').group()
''

复制代码

歌者文明清理员 · 发表于 2023-4-29 21:49:44

wp231957 发表于 2023-4-29 21:08
不行啊还是无法截断他会一直向后取直到取到最后一个span标签

解决了没

wp231957 · 发表于 2023-4-29 22:08:54

歌者文明清理员发表于 2023-4-29 21:49
解决了没

没，准备明天再研究一下
因为我用的是通用正则，而且实际测试，百分之80以上，都能取到正确数据，而取错的数据和其他的没看出来啥区别

账号		自动登录	找回密码
密码			立即注册

[已解决]看看这个函数，关于正则

马上注册，结交更多好友，享用更多功能^_^

点评