鱼C论坛

 找回密码
 立即注册
查看: 2174|回复: 3

做爬虫遇到的问题

[复制链接]
发表于 2020-2-13 19:18:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
def get_imgs(page_addrs, imgs):
    for i in page_addrs:
        html = url_open(i).decode('utf-8')
        a = html.find('img src=') + 9
        imgs_addr = []
        imgs_addrs= []
        for j in range(imgs):
            b = html.find('.jpg',a) + 4
            img_addr.append(html[a:b])

            a = html.find('img src=',b) + 9
        imgs_addrs += imgs_addr

    print (imgs_addrs)

page_addrs是1系列网址,想借这个函数得到这些网址中的图片

运行会报错:TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

不知道为什么?求大神帮助
PS:使用了代理ip和User_Agent
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-13 19:21:10 | 显示全部楼层
应该是代理有问题或者网速慢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-13 19:41:20 | 显示全部楼层
zltzlt 发表于 2020-2-13 19:21
应该是代理有问题或者网速慢

代理和网速都没问题,我在想是不是不能把 网址 装列表里,然后用循环访问
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-15 20:39:21 | 显示全部楼层
之前用urllib.request爬网站也遇到过,
比如按页码urlopen(url)时候,第一页可以爬,接下来几页就报错
try except+延迟时间试了下,time.sleep 60s可以顺利爬
不知道是不是一样的原因
后来改成requests就很顺利地爬了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-22 10:15

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表