Python爬虫章节关于unknown url type的问题,萌新交流区,萌新训练营,鱼C论坛

铅笔不爱冬丶 发表于 2016-12-26 12:29:41

Python爬虫章节关于unknown url type的问题

各位大大好：
在爬虫章节，用re.findall把煎蛋网的图片url放入列表以后
运行会出现unknown url type
爬取下来的url如下：
//ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python无法识别这个url
然后我手动在url之前加上"http:"
url变成：http://ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python就能识别并且下载了。

所以我的问题是：
如何在re.findall爬取图片url时，批量在前面加上"http:"，然后再放入列表

铅笔不爱冬丶 发表于 2016-12-26 22:59:14

pat2 =r'<img src="(.*?)"'
img_addrs = re.findall(pat2, html)
for each3 in img_addrs:
if 'http:' not in each3:
   filename = each3.split("/")[-1]
   each4 = 'http:' + each3
   print(each4)
   urllib.request.urlretrieve(each4,filename)

else:
   filename = each3.split("/")[-1]
   print(each3)
   urllib.request.urlretrieve(each3,filename)

已解决

页: [1]

鱼C论坛's Archiver

Python爬虫章节关于unknown url type的问题