铅笔不爱冬丶 发表于 2016-12-26 12:29:41

Python爬虫章节关于unknown url type的问题

各位大大好:
在爬虫章节,用re.findall把煎蛋网的图片url放入列表以后
运行会出现unknown url type
爬取下来的url如下:
//ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python无法识别这个url
然后我手动在url之前加上"http:"
url变成:http://ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python就能识别并且下载了。

所以我的问题是:
如何在re.findall爬取图片url时,批量在前面加上"http:",然后再放入列表

铅笔不爱冬丶 发表于 2016-12-26 22:59:14

pat2 =r'<img src="(.*?)"'
img_addrs = re.findall(pat2, html)
for each3 in img_addrs:
    if 'http:' not in each3:
      filename = each3.split("/")[-1]
      each4 = 'http:' + each3
      print(each4)
      urllib.request.urlretrieve(each4,filename)

    else:
      filename = each3.split("/")[-1]
      print(each3)
      urllib.request.urlretrieve(each3,filename)

已解决
页: [1]
查看完整版本: Python爬虫章节关于unknown url type的问题