做爬虫遇到的问题

Endlessice · 发表于 2020-2-13 19:18:59

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

def get_imgs(page_addrs, imgs):
for i in page_addrs:
      html = url_open(i).decode('utf-8')
      a = html.find('img src=') + 9
      imgs_addr = []
      imgs_addrs= []
      for j in range(imgs):
         b = html.find('.jpg',a) + 4
         img_addr.append(html[a:b])

         a = html.find('img src=',b) + 9
      imgs_addrs += imgs_addr

print (imgs_addrs)

page_addrs是1系列网址，想借这个函数得到这些网址中的图片

运行会报错：TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

不知道为什么？求大神帮助
PS:使用了代理ip和User_Agent

zltzlt · 发表于 2020-2-13 19:21:10

应该是代理有问题或者网速慢

Endlessice · 发表于 2020-2-13 19:41:20

zltzlt 发表于 2020-2-13 19:21
应该是代理有问题或者网速慢

代理和网速都没问题，我在想是不是不能把网址装列表里，然后用循环访问

沉好人 · 发表于 2020-2-15 20:39:21

之前用urllib.request爬网站也遇到过，
比如按页码urlopen(url)时候，第一页可以爬，接下来几页就报错
try except+延迟时间试了下，time.sleep 60s可以顺利爬
不知道是不是一样的原因
后来改成requests就很顺利地爬了

账号		自动登录	找回密码
密码			立即注册