我之前不知道为啥,被鱼c ban过ip,问题是我啥也没干啊
低情商:我就随便爬一爬论坛
高情商:问题是我啥也没干{:10_256:} 我搞爬虫没被ban过
我之前还爬过自己学校的网站,找到了去年的讲义{:10_256:}
挂了一晚上也没被 ban
time.sleep 也别设置为定值,或者是那种整数啥的
搞个随机的四位小数,然后调用 time.sleep()
主要还是 headers 那里你要尽量趋近于人的操作
然后每100章或者1000章搞一个大的time.sleep 比如说五秒十秒的
被 ban 其实还是一定时间内请求访问的次数太多了,太频繁了 之前有个帖子挺好的,每100次暂停程序,询问是否继续下载
也算是给了服务器喘息时间 昨非 发表于 2021-3-31 17:57
低情商:我就随便爬一爬论坛
高情商:问题是我啥也没干
论坛我真没爬过
连自动签到都没做过
可能是我经常发点小爬爬的帖子,论坛就开启了自我保护?
可惜,我有梯子{:10_334:} 666 爬取小说的软件我用tkinter写过也在论坛发过,多线程也好多进程也罢,其实也并没有那么神奇
网站封IP的最主要的原因就是访问过快,多线程也好多进程也罢,都是加快了访问速度,封IP靠这个是不能解决的
这么说吧,小说例如有1000章,你要处理的是1000次页面访问、爬取、解析数据、存储数据
多线程或多进程+代理池,才是正确的解决思路,要想不被封IP,单IP只能加延迟来模拟正常访问,否则一定会因为速度太快而导致异常 笨鸟学飞 发表于 2021-4-1 13:46
爬取小说的软件我用tkinter写过也在论坛发过,多线程也好多进程也罢,其实也并没有那么神奇
网站封IP的最 ...
了解 笔趣阁自己也是盗版,怕啥,给他整宕机了他也不敢告你 伪文青 发表于 2021-4-2 13:23
笔趣阁自己也是盗版,怕啥,给他整宕机了他也不敢告你
它服务器崩了我爬谁去。。。{:10_256:} 膜拜大佬 学废了 mark 来看评论学习的{:10_254:} 期待了啊
页:
1
[2]