Daniel_Zhang 发表于 2021-3-31 17:54:39

我之前不知道为啥,被鱼c ban过ip,问题是我啥也没干啊{:10_277:}

昨非 发表于 2021-3-31 17:57:02

Daniel_Zhang 发表于 2021-3-31 17:54
我之前不知道为啥,被鱼c ban过ip,问题是我啥也没干啊

低情商:我就随便爬一爬论坛
高情商:问题是我啥也没干{:10_256:}

Daniel_Zhang 发表于 2021-3-31 18:05:33

我搞爬虫没被ban过

我之前还爬过自己学校的网站,找到了去年的讲义{:10_256:}

挂了一晚上也没被 ban

time.sleep 也别设置为定值,或者是那种整数啥的

搞个随机的四位小数,然后调用 time.sleep()

主要还是 headers 那里你要尽量趋近于人的操作

然后每100章或者1000章搞一个大的time.sleep 比如说五秒十秒的

被 ban 其实还是一定时间内请求访问的次数太多了,太频繁了

Daniel_Zhang 发表于 2021-3-31 18:09:15

之前有个帖子挺好的,每100次暂停程序,询问是否继续下载

也算是给了服务器喘息时间

Daniel_Zhang 发表于 2021-3-31 18:10:36

昨非 发表于 2021-3-31 17:57
低情商:我就随便爬一爬论坛
高情商:问题是我啥也没干

论坛我真没爬过

连自动签到都没做过

可能是我经常发点小爬爬的帖子,论坛就开启了自我保护?

可惜,我有梯子{:10_334:}

松冈有沙 发表于 2021-4-1 08:33:15

666

笨鸟学飞 发表于 2021-4-1 13:46:44

爬取小说的软件我用tkinter写过也在论坛发过,多线程也好多进程也罢,其实也并没有那么神奇
网站封IP的最主要的原因就是访问过快,多线程也好多进程也罢,都是加快了访问速度,封IP靠这个是不能解决的
这么说吧,小说例如有1000章,你要处理的是1000次页面访问、爬取、解析数据、存储数据
多线程或多进程+代理池,才是正确的解决思路,要想不被封IP,单IP只能加延迟来模拟正常访问,否则一定会因为速度太快而导致异常

昨非 发表于 2021-4-1 13:52:52

笨鸟学飞 发表于 2021-4-1 13:46
爬取小说的软件我用tkinter写过也在论坛发过,多线程也好多进程也罢,其实也并没有那么神奇
网站封IP的最 ...

了解

伪文青 发表于 2021-4-2 13:23:18

笔趣阁自己也是盗版,怕啥,给他整宕机了他也不敢告你

昨非 发表于 2021-4-2 13:24:25

伪文青 发表于 2021-4-2 13:23
笔趣阁自己也是盗版,怕啥,给他整宕机了他也不敢告你

它服务器崩了我爬谁去。。。{:10_256:}

zsc123xyz147 发表于 2021-4-3 09:31:44

膜拜大佬

1406598279 发表于 2021-4-5 14:12:19

学废了

SiriusLight 发表于 2021-4-9 09:32:17

mark

后话 发表于 2021-4-13 16:29:51

来看评论学习的{:10_254:}

帅气小哥 发表于 2021-4-13 18:09:18

期待了啊
页: 1 [2]
查看完整版本: 【爬虫】单次大规模爬取小说有无风险