|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 大头目 于 2018-3-6 20:51 编辑
挖坑:不是很理解标注红色的两块地方为什么那么写,匹配到的是下面'''中的内容
脱坑(现阶段理解):.*?是代表匹配任意字符0次?
[^"]*按照小甲鱼书上的表格不是应该是匹配"开头的0或多次吗?为什么可以匹配https://imgsa.baidu.com/forum/w%3D580/sign=f9cf09409c25bc312b5d01906ede8de7/
8f0ede0735fae6cdafb377ef0ab30f2443a70fda这么大一串?
类似坑:暂无
import urllib.request
import re
response = urllib.request.urlopen('http://tieba.baidu.com/p/3823765471')
html = response.read().decode('utf-8')
p = r'<img class="BDE_Image".*?src="[^"]*\.jpg".*?>'
'''<img class="BDE_Image" src="https://imgsa.baidu.com/forum/w%3D580/sign=f9cf09409c25bc312b5d01906ede8de7/
8f0ede0735fae6cdafb377ef0ab30f2443a70fda.jpg" pic_ext="jpeg" changedsize="true" width="560" height="497">'''
imglist = re.findall(p,html)
for each in imglist:
print(each)
.*?是非贪婪模式
[^"]是贪婪模式,[]是字符类。字符类里脱字符表示取反,即不是引号都拿来
|
|