Python爬虫章节关于unknown url type的问题
各位大大好:在爬虫章节,用re.findall把煎蛋网的图片url放入列表以后
运行会出现unknown url type
爬取下来的url如下:
//ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python无法识别这个url
然后我手动在url之前加上"http:"
url变成:http://ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python就能识别并且下载了。
所以我的问题是:
如何在re.findall爬取图片url时,批量在前面加上"http:",然后再放入列表
pat2 =r'<img src="(.*?)"'
img_addrs = re.findall(pat2, html)
for each3 in img_addrs:
if 'http:' not in each3:
filename = each3.split("/")[-1]
each4 = 'http:' + each3
print(each4)
urllib.request.urlretrieve(each4,filename)
else:
filename = each3.split("/")[-1]
print(each3)
urllib.request.urlretrieve(each3,filename)
已解决
页:
[1]