正则表达式非贪婪模式的问题
a = "abc'cba'abc'"re.search("a.+?'a.+?'", a)
上述代码 我是要寻找 如:axx'axx'这样的内容,因此对变量a进行寻找是不应该返回任何结果的
但,却返回了abc'cba'abc'
我不理解
已经设置了非贪婪模式 应当会在第一个abc'处停下 然后发现后面是c 从而返回"未找到"的结果才对吖。
我以为是程序是将第一个+?后的作为整体看待 因此设置了子组
re.search("(a.+?')a.+?'", a)
但结果还是一样的
本帖最后由 cflying 于 2022-11-11 16:30 编辑
你那个a后的.要改成\w
题外话,像你这种字符串结构比较规范的,直接正则a开头3位还简单些 cflying 发表于 2022-11-11 16:25
直接正则a开头3位不就得了
谢谢回答。我这是个例子,我是要爬百度百科,不一定都是3位,也确实有其他方法,但我还是想知道这个贪婪模式为什么这么诡异。 Mooven_Python 发表于 2022-11-11 16:30
谢谢回答。我这是个例子,我是要爬百度百科,不一定都是3位,也确实有其他方法,但我还是想知道这个贪婪 ...
不是贪婪诡异,是你那个.诡异 本帖最后由 Mooven_Python 于 2022-11-11 16:40 编辑
cflying 发表于 2022-11-11 16:33
不是贪婪诡异,是你那个.诡异
哈哈哈哈,我刚学完这部分,肯定是我理解的不对。
这个非贪婪模式,不应该是到?后的第一个字符截至吗
比如 a.+?bc 会在aaabaabc中的第一个b截至 然后看到后面是ba 与bc不符 从而返回未找到结果。
但实际结果却是找到了 aaabaabc
莫非是会把?后的内容当作整体看 从而在第一个bc截至吗 本帖最后由 cflying 于 2022-11-11 17:09 编辑
首先,.匹配的是非\n和非\r外的所有字符,所以你那个’也在匹配之列,所以a'就会被匹配出来
其次,?代表前面字符出现0次或1次,你去掉+再试试
最好先说清楚,你到底要什么? 其次,给足够的字符例子,让大家明确你的需求,也弥补可能的表达不清。
另外,search()返回的是Match对象,组结果要用 .group(i) 。
re.search("(a.+?')a.+?'", a)
<re.Match object; span=(0, 12), match="abc'cba'abc'">
re.search("(a.+?')a.+?'", a).group()
"abc'cba'abc'"
re.search("(a.+?')a.+?'", a).group(1)
"abc'cba'"
页:
[1]