13538250008 发表于 2021-4-6 22:16:03

爬取网站信息最好设置什么频率比较好?

最近抓取小说,偶尔连接不上,估计是频率太高了,请问如果用代理是不是就可以不用限制频率?{:5_100:}

Daniel_Zhang 发表于 2021-4-6 22:49:01

代理也不行

访问速度过快就会这样,服务器压力太大

你可以试试 time.sleep(时间) 爬一次休息一段时间

据说多线程不会受影响,不知道是不是真的

591821661 发表于 2021-4-6 23:21:26

老司机告诉你

time.sleep(0.2)
timeout = 30

懂的都懂{:10_279:}

591821661 发表于 2021-4-6 23:25:51

Daniel_Zhang 发表于 2021-4-6 22:49
代理也不行

访问速度过快就会这样,服务器压力太大


多线程不受影响 但是要及时关闭长连接 不要一直保持 否则容易封IP 只要别访问过快 一般都不会封IP


headers   = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
s         = requests.session()
s.keep_alive= False
html      = s.get(url,headers=headers)

kogawananari 发表于 2021-4-7 00:29:11

多搞几个代理弄个IP池 {:10_253:}
页: [1]
查看完整版本: 爬取网站信息最好设置什么频率比较好?