正则表达式,Python交流,编程语言专区,鱼C论坛

19420107 发表于 2021-2-21 21:32:59

正则表达式

import re
str ='<div class="thumb">\
\
<a href="/article/121721100" target="blank">\
<img src="//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg" alt="糗事#123925646">\
</a>\
\
</div>'
ex = r'<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
a = re.findall(ex,str,re.S)
print(a)

第一个问题：.*? *的意思是匹配零次或者无数次，那么关闭贪婪模式后，岂不是永远只匹配0个字符？
第二个问题：上面这一段代码，难道不应该整个str都被匹配了吗？为什么只有//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg被匹配了

Daniel_Zhang 发表于 2021-2-21 21:45:57

这个写法挺麻烦的其实

之所以没有匹配整个 str 是因为中间有一个括号

(.*?)

表示的是取括号里面的内容

也就是 src="后面的内容，一直到src右侧的"

简单一点的办法就是

import re
str = '<div class="thumb">\
\
<a href="/article/121721100" target="blank">\
<img src="//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg" alt="糗事#123925646">\
</a>\
\
</div>'
ex = r'src="([^"]+[\.jpg|\.png])"'
a = re.findall(ex, str, re.S)
print(a)

Daniel_Zhang 发表于 2021-2-21 21:49:01

我上面只修改了正则表达式部分

直接匹配并提取 src="后面的字符

[^"] 表示脱字符，小甲鱼在论坛的正则表达式的文章里有讲，就是匹配除了 "以外的字符

[\.jpg\.png] 就是匹配 .jpg 或 .png 文件

心驰神往 发表于 2021-2-22 09:05:18

这么狠么，一次19

Daniel_Zhang 发表于 2021-2-22 12:45:28

心驰神往发表于 2021-2-22 09:05
这么狠么，一次19

吐血了，他应该是忘了设置人数了{:10_247:}

19420107 发表于 2021-2-22 13:00:32

Daniel_Zhang 发表于 2021-2-21 21:45
这个写法挺麻烦的其实

之所以没有匹配整个 str 是因为中间有一个括号

太感谢啦！！

19420107 发表于 2021-2-22 13:01:02

心驰神往发表于 2021-2-22 09:05
这么狠么，一次19

哈哈哈哈哈哈下次绝对不能让你摸鱼

心驰神往 发表于 2021-2-22 14:47:35

19420107 发表于 2021-2-22 13:01
哈哈哈哈哈哈下次绝对不能让你摸鱼

嘿嘿{:10_256:}

页: [1]

鱼C论坛's Archiver

正则表达式