19420107 发表于 2021-2-21 21:32:59

正则表达式

import re
str ='<div class="thumb">\
\
<a href="/article/121721100" target="blank">\
<img src="//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg" alt="糗事#123925646">\
</a>\
\
</div>'
ex = r'<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
a = re.findall(ex,str,re.S)
print(a)

第一个问题:.*?      *的意思是匹配零次或者无数次,那么关闭贪婪模式后,岂不是永远只匹配0个字符?
第二个问题:上面这一段代码,难道不应该整个str都被匹配了吗?为什么只有//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg被匹配了

Daniel_Zhang 发表于 2021-2-21 21:45:57

这个写法挺麻烦的其实

之所以没有匹配整个 str 是因为中间有一个括号

(.*?)

表示的是取括号里面的内容

也就是 src="后面的内容,一直到src右侧的"

简单一点的办法就是


import re
str = '<div class="thumb">\
\
<a href="/article/121721100" target="blank">\
<img src="//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg" alt="糗事#123925646">\
</a>\
\
</div>'
ex = r'src="([^"]+[\.jpg|\.png])"'
a = re.findall(ex, str, re.S)
print(a)

Daniel_Zhang 发表于 2021-2-21 21:49:01

我上面只修改了正则表达式部分

直接匹配并提取 src="后面的字符

[^"] 表示脱字符,小甲鱼在论坛的正则表达式的文章里有讲,就是匹配除了 "以外的字符

[\.jpg\.png] 就是匹配 .jpg 或 .png 文件

心驰神往 发表于 2021-2-22 09:05:18

这么狠么,一次19

Daniel_Zhang 发表于 2021-2-22 12:45:28

心驰神往 发表于 2021-2-22 09:05
这么狠么,一次19

吐血了,他应该是忘了设置人数了{:10_247:}

19420107 发表于 2021-2-22 13:00:32

Daniel_Zhang 发表于 2021-2-21 21:45
这个写法挺麻烦的其实

之所以没有匹配整个 str 是因为中间有一个括号


太感谢啦!!

19420107 发表于 2021-2-22 13:01:02

心驰神往 发表于 2021-2-22 09:05
这么狠么,一次19

哈哈哈哈哈哈下次绝对不能让你摸鱼

心驰神往 发表于 2021-2-22 14:47:35

19420107 发表于 2021-2-22 13:01
哈哈哈哈哈哈下次绝对不能让你摸鱼

嘿嘿{:10_256:}
页: [1]
查看完整版本: 正则表达式