鱼C论坛

 找回密码
 立即注册
查看: 2546|回复: 2

[技术交流] Python爬虫为什么需要使用代理ip?

[复制链接]
发表于 2020-10-24 11:51:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在这个互联网时代里,网络爬虫早已变成获取数据不可缺少的方式。Python爬虫为什么要使用代理ip?因为在爬取采集数据过程中,ip经常被目标服务器限制,这也是常见的一种反爬虫策略,为了更好的防止ip被限制,一般都会用到以下两种方式去突破:

1.放慢捉取速度,每次运行后都睡眠1s,减少对目标服务器请求引起的压力,但是会减少采集数据的任务量。

2.通过使用像万变ip这样的优质http代理ip,隐私本地真实ip地址对服务器进行大量的发送请求,让目标服务器无法判断是同一个机器发送的请求,从而突破限制。

对于Python爬虫而言,很多时候业务量繁重,分布式爬虫是提高效率最好的方式,分布式爬虫需要大量的ip资源,最简单、最有效的方法就是借助代理ip软件,也很有效的突破网站的反爬虫机制。







想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-10-24 11:53:17 | 显示全部楼层
主要是现在免费能用的代理基本没有了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-10-24 11:56:47 | 显示全部楼层
weiter 发表于 2020-10-24 11:53
主要是现在免费能用的代理基本没有了

是的,免费的代理现在基本上不能使用了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-18 07:41

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表