python爬虫问题
求助大佬解答频繁抓取数据会被亚马逊网站封锁ip地址。目前解决方案:异步进行一个爬取ip的网站,通过代理ip,但是网上爬取的只有少部分能用,感觉耗存很大。请问还有什么好的方法可以爬取亚马逊??或者算法上的优化 像你这样的话 可以花点钱买一天的代理IP (平均一天10块) 或者用框架分布式的方式进行爬取 但是首先得有几台云服务器
或者简单的方法就是加个休眠时间 比如60秒或者30秒 爬一次 上代理不就ok了! {:10_249:} 来人,抬代理 你看看崔庆才的ip代理池的构建,他的ip代理池项目在github有。他的书上有,博客上好像没有。 爬虫几乎都是一个原理,算法上没必要优化了,避免封号的颁发无外乎就俩:
1、挂代理去做
2、让爬虫访问速度下降,用 random 函数设置一个区间的随机数,间隔若干秒访问下一条
第一种方法需要找代码并反复调试,第二种会降低访问速度,但是能保证不会被封 全局代理 1 大网站有反爬措施也是正常的.
在想如何扒收费的网站....
页:
[1]