鱼C论坛

 找回密码
 立即注册
查看: 1784|回复: 4

[已解决]爬取网站信息最好设置什么频率比较好?

[复制链接]
发表于 2021-4-6 22:16:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最近抓取小说,偶尔连接不上,估计是频率太高了,请问如果用代理是不是就可以不用限制频率?
最佳答案
2021-4-6 23:25:51
Daniel_Zhang 发表于 2021-4-6 22:49
代理也不行

访问速度过快就会这样,服务器压力太大


多线程不受影响 但是要及时关闭长连接 不要一直保持 否则容易封IP 只要别访问过快 一般都不会封IP
headers     = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
s           = requests.session()
s.keep_alive= False
html        = s.get(url,headers=headers)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-6 22:49:01 | 显示全部楼层
代理也不行

访问速度过快就会这样,服务器压力太大

你可以试试 time.sleep(时间) 爬一次休息一段时间

据说多线程不会受影响,不知道是不是真的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-6 23:21:26 | 显示全部楼层
老司机告诉你

time.sleep(0.2)
timeout = 30

懂的都懂
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-6 23:25:51 | 显示全部楼层    本楼为最佳答案   
Daniel_Zhang 发表于 2021-4-6 22:49
代理也不行

访问速度过快就会这样,服务器压力太大


多线程不受影响 但是要及时关闭长连接 不要一直保持 否则容易封IP 只要别访问过快 一般都不会封IP
headers     = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
s           = requests.session()
s.keep_alive= False
html        = s.get(url,headers=headers)

评分

参与人数 1荣誉 +3 鱼币 +2 贡献 +1 收起 理由
Daniel_Zhang + 3 + 2 + 1

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-7 00:29:11 | 显示全部楼层
多搞几个代理  弄个IP池
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 16:40

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表