爬取网站信息最好设置什么频率比较好?
最近抓取小说,偶尔连接不上,估计是频率太高了,请问如果用代理是不是就可以不用限制频率?{:5_100:} 代理也不行访问速度过快就会这样,服务器压力太大
你可以试试 time.sleep(时间) 爬一次休息一段时间
据说多线程不会受影响,不知道是不是真的 老司机告诉你
time.sleep(0.2)
timeout = 30
懂的都懂{:10_279:} Daniel_Zhang 发表于 2021-4-6 22:49
代理也不行
访问速度过快就会这样,服务器压力太大
多线程不受影响 但是要及时关闭长连接 不要一直保持 否则容易封IP 只要别访问过快 一般都不会封IP
headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
s = requests.session()
s.keep_alive= False
html = s.get(url,headers=headers)
多搞几个代理弄个IP池 {:10_253:}
页:
[1]