渔夫c 发表于 2020-3-27 17:38:22

python爬虫问题

求助大佬解答
频繁抓取数据会被亚马逊网站封锁ip地址。目前解决方案:异步进行一个爬取ip的网站,通过代理ip,但是网上爬取的只有少部分能用,感觉耗存很大。请问还有什么好的方法可以爬取亚马逊??或者算法上的优化

admintest166 发表于 2020-3-28 12:16:16

像你这样的话 可以花点钱买一天的代理IP (平均一天10块) 或者用框架分布式的方式进行爬取 但是首先得有几台云服务器

或者简单的方法就是加个休眠时间 比如60秒或者30秒 爬一次

enomone 发表于 2020-3-29 17:31:40

上代理不就ok了!

流月飞星 发表于 2020-3-31 12:28:46

{:10_249:}

AINIDEREN 发表于 2020-4-4 15:58:38

来人,抬代理

会计的会怎么念 发表于 2020-4-4 16:17:58

你看看崔庆才的ip代理池的构建,他的ip代理池项目在github有。他的书上有,博客上好像没有。

foxiangzun 发表于 2020-4-11 11:59:16

爬虫几乎都是一个原理,算法上没必要优化了,避免封号的颁发无外乎就俩:
1、挂代理去做
2、让爬虫访问速度下降,用 random 函数设置一个区间的随机数,间隔若干秒访问下一条
第一种方法需要找代码并反复调试,第二种会降低访问速度,但是能保证不会被封

v.ki 发表于 2020-4-11 15:08:51

全局代理

丶小小少年 发表于 2020-4-15 15:43:00

1

fly3412 发表于 2020-4-15 23:08:20

大网站有反爬措施也是正常的.
在想如何扒收费的网站....
页: [1]
查看完整版本: python爬虫问题