python爬虫问题,Python交流,编程语言专区,鱼C论坛

渔夫c 发表于 2020-3-27 17:38:22

求助大佬解答
频繁抓取数据会被亚马逊网站封锁ip地址。目前解决方案：异步进行一个爬取ip的网站，通过代理ip，但是网上爬取的只有少部分能用，感觉耗存很大。请问还有什么好的方法可以爬取亚马逊？？或者算法上的优化

admintest166 发表于 2020-3-28 12:16:16

像你这样的话可以花点钱买一天的代理IP （平均一天10块）或者用框架分布式的方式进行爬取但是首先得有几台云服务器

或者简单的方法就是加个休眠时间比如60秒或者30秒爬一次

enomone 发表于 2020-3-29 17:31:40

上代理不就ok了！

流月飞星 发表于 2020-3-31 12:28:46

{:10_249:}

AINIDEREN 发表于 2020-4-4 15:58:38

来人，抬代理

会计的会怎么念 发表于 2020-4-4 16:17:58

你看看崔庆才的ip代理池的构建，他的ip代理池项目在github有。他的书上有，博客上好像没有。

foxiangzun 发表于 2020-4-11 11:59:16

爬虫几乎都是一个原理，算法上没必要优化了，避免封号的颁发无外乎就俩：
1、挂代理去做
2、让爬虫访问速度下降，用 random 函数设置一个区间的随机数，间隔若干秒访问下一条
第一种方法需要找代码并反复调试，第二种会降低访问速度，但是能保证不会被封

v.ki 发表于 2020-4-11 15:08:51

全局代理

丶小小少年 发表于 2020-4-15 15:43:00

fly3412 发表于 2020-4-15 23:08:20

大网站有反爬措施也是正常的.
在想如何扒收费的网站....

页: [1]

鱼C论坛's Archiver