鱼C论坛

 找回密码
 立即注册
查看: 6315|回复: 1

Python爬虫章节关于unknown url type的问题

[复制链接]
发表于 2016-12-26 12:29:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
各位大大好:
在爬虫章节,用re.findall把煎蛋网的图片url放入列表以后
运行会出现unknown url type
爬取下来的url如下:
//ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python无法识别这个url
然后我手动在url之前加上"http:"
url变成:http://ww3.sinaimg.cn/mw600/661eb95cgw1fb40pjnbu3j20n50ycmzh.jpg
Python就能识别并且下载了。

所以我的问题是:
如何在re.findall爬取图片url时,批量在前面加上"http:",然后再放入列表

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-12-26 22:59:14 | 显示全部楼层
pat2 =r'<img src="(.*?)"'
img_addrs = re.findall(pat2, html)
for each3 in img_addrs:
    if 'http:' not in each3:
        filename = each3.split("/")[-1]
        each4 = 'http:' + each3
        print(each4)
        urllib.request.urlretrieve(each4,filename)

    else:
        filename = each3.split("/")[-1]
        print(each3)
        urllib.request.urlretrieve(each3,filename)

已解决
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-14 16:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表