正则表达式
import restr ='<div class="thumb">\
\
<a href="/article/121721100" target="blank">\
<img src="//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg" alt="糗事#123925646">\
</a>\
\
</div>'
ex = r'<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
a = re.findall(ex,str,re.S)
print(a)
第一个问题:.*? *的意思是匹配零次或者无数次,那么关闭贪婪模式后,岂不是永远只匹配0个字符?
第二个问题:上面这一段代码,难道不应该整个str都被匹配了吗?为什么只有//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg被匹配了 这个写法挺麻烦的其实
之所以没有匹配整个 str 是因为中间有一个括号
(.*?)
表示的是取括号里面的内容
也就是 src="后面的内容,一直到src右侧的"
简单一点的办法就是
import re
str = '<div class="thumb">\
\
<a href="/article/121721100" target="blank">\
<img src="//pic.qiushibaike.com/system/pictures/12392/123925646/medium/ZXOKCHDF7DKY0J4D.jpg" alt="糗事#123925646">\
</a>\
\
</div>'
ex = r'src="([^"]+[\.jpg|\.png])"'
a = re.findall(ex, str, re.S)
print(a)
我上面只修改了正则表达式部分
直接匹配并提取 src="后面的字符
[^"] 表示脱字符,小甲鱼在论坛的正则表达式的文章里有讲,就是匹配除了 "以外的字符
[\.jpg\.png] 就是匹配 .jpg 或 .png 文件 这么狠么,一次19 心驰神往 发表于 2021-2-22 09:05
这么狠么,一次19
吐血了,他应该是忘了设置人数了{:10_247:} Daniel_Zhang 发表于 2021-2-21 21:45
这个写法挺麻烦的其实
之所以没有匹配整个 str 是因为中间有一个括号
太感谢啦!! 心驰神往 发表于 2021-2-22 09:05
这么狠么,一次19
哈哈哈哈哈哈下次绝对不能让你摸鱼 19420107 发表于 2021-2-22 13:01
哈哈哈哈哈哈下次绝对不能让你摸鱼
嘿嘿{:10_256:}
页:
[1]