鱼C论坛

 找回密码
 立即注册
查看: 2284|回复: 9

python爬虫问题

[复制链接]
发表于 2020-3-27 17:38:22 | 显示全部楼层 |阅读模式
1鱼币
求助大佬解答
频繁抓取数据会被亚马逊网站封锁ip地址。目前解决方案:异步进行一个爬取ip的网站,通过代理ip,但是网上爬取的只有少部分能用,感觉耗存很大。请问还有什么好的方法可以爬取亚马逊??或者算法上的优化

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-28 12:16:16 | 显示全部楼层
像你这样的话 可以花点钱买一天的代理IP (平均一天10块) 或者用框架分布式的方式进行爬取 但是首先得有几台云服务器

或者简单的方法就是加个休眠时间 比如60秒或者30秒 爬一次
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-29 17:31:40 | 显示全部楼层
上代理不就ok了!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-31 12:28:46 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-4 15:58:38 | 显示全部楼层
来人,抬代理
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-4 16:17:58 | 显示全部楼层
你看看崔庆才的ip代理池的构建,他的ip代理池项目在github有。他的书上有,博客上好像没有。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-11 11:59:16 | 显示全部楼层
爬虫几乎都是一个原理,算法上没必要优化了,避免封号的颁发无外乎就俩:
1、挂代理去做
2、让爬虫访问速度下降,用 random 函数设置一个区间的随机数,间隔若干秒访问下一条
第一种方法需要找代码并反复调试,第二种会降低访问速度,但是能保证不会被封
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-11 15:08:51 | 显示全部楼层
全局代理
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-15 15:43:00 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-15 23:08:20 | 显示全部楼层
大网站有反爬措施也是正常的.
在想如何扒收费的网站....
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 02:01

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表