正则表达式非贪婪模式的问题,Python交流,编程语言专区,鱼C论坛

Mooven_Python 发表于 2022-11-11 16:21:46

正则表达式非贪婪模式的问题

a = "abc'cba'abc'"
re.search("a.+?'a.+?'", a)

上述代码我是要寻找如：axx'axx'这样的内容，因此对变量a进行寻找是不应该返回任何结果的
但，却返回了abc'cba'abc'
我不理解
已经设置了非贪婪模式应当会在第一个abc'处停下然后发现后面是c 从而返回"未找到"的结果才对吖。
我以为是程序是将第一个+?后的作为整体看待因此设置了子组
re.search("(a.+?')a.+?'", a)
但结果还是一样的

cflying 发表于 2022-11-11 16:25:54

本帖最后由 cflying 于 2022-11-11 16:30 编辑

你那个a后的.要改成\w

题外话，像你这种字符串结构比较规范的，直接正则a开头3位还简单些

Mooven_Python 发表于 2022-11-11 16:30:49

cflying 发表于 2022-11-11 16:25
直接正则a开头3位不就得了

谢谢回答。我这是个例子，我是要爬百度百科，不一定都是3位，也确实有其他方法，但我还是想知道这个贪婪模式为什么这么诡异。

cflying 发表于 2022-11-11 16:33:23

Mooven_Python 发表于 2022-11-11 16:30
谢谢回答。我这是个例子，我是要爬百度百科，不一定都是3位，也确实有其他方法，但我还是想知道这个贪婪 ...

不是贪婪诡异，是你那个.诡异

Mooven_Python 发表于 2022-11-11 16:38:30

本帖最后由 Mooven_Python 于 2022-11-11 16:40 编辑

cflying 发表于 2022-11-11 16:33
不是贪婪诡异，是你那个.诡异

哈哈哈哈，我刚学完这部分，肯定是我理解的不对。
这个非贪婪模式，不应该是到?后的第一个字符截至吗
比如 a.+?bc 会在aaabaabc中的第一个b截至然后看到后面是ba 与bc不符从而返回未找到结果。
但实际结果却是找到了 aaabaabc
莫非是会把?后的内容当作整体看从而在第一个bc截至吗

cflying 发表于 2022-11-11 17:08:06

本帖最后由 cflying 于 2022-11-11 17:09 编辑

首先，.匹配的是非\n和非\r外的所有字符，所以你那个’也在匹配之列，所以a'就会被匹配出来
其次，?代表前面字符出现0次或1次,你去掉+再试试

阿奇_o 发表于 2022-11-11 17:24:53

最好先说清楚，你到底要什么？其次，给足够的字符例子，让大家明确你的需求，也弥补可能的表达不清。
另外，search()返回的是Match对象，组结果要用 .group(i) 。
re.search("(a.+?')a.+?'", a)
<re.Match object; span=(0, 12), match="abc'cba'abc'">
re.search("(a.+?')a.+?'", a).group()
"abc'cba'abc'"
re.search("(a.+?')a.+?'", a).group(1)
"abc'cba'"

页: [1]

鱼C论坛's Archiver

正则表达式非贪婪模式的问题