Python爬虫章节关于unknown url type的问题

铅笔不爱冬丶 · 发表于 2016-12-26 12:29:41

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

各位大大好：
在爬虫章节，用re.findall把煎蛋网的图片url放入列表以后
运行会出现unknown url type
爬取下来的url如下：
//ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python无法识别这个url
然后我手动在url之前加上"http:"
url变成：http://ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python就能识别并且下载了。

所以我的问题是：
如何在re.findall爬取图片url时，批量在前面加上"http:"，然后再放入列表

铅笔不爱冬丶 · 发表于 2016-12-26 22:59:14

pat2 =r'<img src="(.*?)"'
img_addrs = re.findall(pat2, html)
for each3 in img_addrs:
if 'http:' not in each3:
      filename = each3.split("/")[-1]
      each4 = 'http:' + each3
      print(each4)
      urllib.request.urlretrieve(each4,filename)

else:
      filename = each3.split("/")[-1]
      print(each3)
      urllib.request.urlretrieve(each3,filename)

已解决

账号		自动登录	找回密码
密码			立即注册