【爬虫】单次大规模爬取小说有无风险,Python交流,编程语言专区,鱼C论坛

昨非发表于 2021-3-30 22:44:39

【爬虫】单次大规模爬取小说有无风险

近期在写爬取小说的爬虫程序，大概爬取范围是要覆盖掉整个笔趣阁网站的所有小说的每个章节
（当然，不会全部爬取，只是初步计划按照用户需求以本为单位爬取，加载到本地以支持离线阅读）
整体框架已经写好了，只不过调试时不敢大规模爬取
emmm
大概每本小说有1000~5000不等的章节内容，想问一下一次性抓取下来有无IP被ban的风险
或者除了用代理IP之外（考虑到不稳定，所以不作为首选），有无解决方案

（经验性问题，欢迎大家指教）

kl84114 发表于 2021-3-30 23:14:14

大侠求代码，，，

昨非发表于 2021-3-30 23:16:00

kl84114 发表于 2021-3-30 23:14
大侠求代码，，，

完成了自会发出来的
现在嘛，还不太够看{:10_250:}

小伤口 发表于 2021-3-30 23:19:43

我觉得会有{:10_250:}
最近爬京东评论就差点被封貌似
不过第二天就又好了
不过我用了多线程之后就没问题了{:10_256:}

昨非发表于 2021-3-30 23:23:10

小伤口发表于 2021-3-30 23:19
我觉得会有
最近爬京东评论就差点被封貌似
不过第二天就又好了

同一个IP，单线程跟多线程有区别吗？
（暂时还没用过多线程，只知道提高效率，不太了解哈）

hornwong 发表于 2021-3-30 23:24:38

{:5_95:}

小伤口 发表于 2021-3-30 23:30:19

昨非发表于 2021-3-30 23:23
同一个IP，单线程跟多线程有区别吗？
（暂时还没用过多线程，只知道提高效率，不太了解哈）

我也是最近才知道
个人认为单线程爬取这么多数据需要很长时间{:10_297:}
很容易被怀疑{:10_266:}
多线程速度蹭蹭的往上涨{:10_275:}
服务器还没反应过来，就嘿嘿~{:10_256:}
那我自己的例子{:10_291:}
原来5分钟左右才爬完的{:10_281:}
用多线程
大概一分钟吧就ok了{:10_278:}
放心吧，大佬，这个学一会就会用了，虽然不敢保证能否理解{:10_315:}

昨非发表于 2021-3-30 23:33:24

小伤口发表于 2021-3-30 23:30
我也是最近才知道
个人认为单线程爬取这么多数据需要很长时间
很容易被怀疑

这我直到，但是爬虫不是最忌讳“太快”的吗{:10_256:}

小伤口 发表于 2021-3-30 23:35:19

昨非发表于 2021-3-30 23:33
这我直到，但是爬虫不是最忌讳“太快”的吗

我理解不了了

昨非发表于 2021-3-30 23:37:21

小伤口发表于 2021-3-30 23:35
我理解不了了

坐等大佬咯{:10_256:}

yuedong 发表于 2021-3-31 00:32:50

插眼

wp231957 发表于 2021-3-31 07:39:32

你只要不干扰网站运行，估计没人理你
但因为你的爬虫，导致网站出些问题，都不用封你ip 法院会找你谈话，不要担心对方没有证据

QingCai 发表于 2021-3-31 08:10:05

插眼，学习

crisfo 发表于 2021-3-31 08:29:19

观望，学习{:10_256:}

z5560636 发表于 2021-3-31 08:30:21

昨非发表于 2021-3-30 23:33
这我直到，但是爬虫不是最忌讳“太快”的吗

你可以自己添加延迟函数，毕竟，网页要限制的只是你IP是否真人浏览的速度，一个IP 地址慢慢爬，他也不会察觉的。高级一点的代理异步，都是类似这种思路，把单个IP的访问速度控制在一定范畴之内即可。

还有一点不要怕进去，毕竟笔趣阁自己也不正派{:10_289:}

江湖散人 发表于 2021-3-31 09:29:00

牛逼，大神，有源代码吗？

昨非发表于 2021-3-31 09:36:53

江湖散人发表于 2021-3-31 09:29
牛逼，大神，有源代码吗？

会有的，暂时还是不发了

昨非发表于 2021-3-31 13:32:46

wp231957 发表于 2021-3-31 07:39
你只要不干扰网站运行，估计没人理你
但因为你的爬虫，导致网站出些问题，都不用封你ip 法院会找你谈话 ...

应该不至于，几千次访问应该不会出问题的
再说目标网站也是盗版起家的（正版起点中文网一堆VIP限制）
。。。

noah-py 发表于 2021-3-31 17:03:31

{:10_254:}

名字只有七个字 发表于 2021-3-31 17:50:46

wow

页: [1] 2

鱼C论坛's Archiver

【爬虫】单次大规模爬取小说有无风险