昨非 发表于 2021-3-30 22:44:39

【爬虫】单次大规模爬取小说有无风险

近期在写爬取小说的爬虫程序,大概爬取范围是要覆盖掉整个笔趣阁网站的所有小说的每个章节
(当然,不会全部爬取,只是初步计划按照用户需求以本为单位爬取,加载到本地以支持离线阅读)
整体框架已经写好了,只不过调试时不敢大规模爬取
emmm
大概每本小说有1000~5000不等的章节内容,想问一下一次性抓取下来有无IP被ban的风险
或者除了用代理IP之外(考虑到不稳定,所以不作为首选),有无解决方案

(经验性问题,欢迎大家指教)

kl84114 发表于 2021-3-30 23:14:14

大侠求代码,,,

昨非 发表于 2021-3-30 23:16:00

kl84114 发表于 2021-3-30 23:14
大侠求代码,,,

完成了自会发出来的
现在嘛,还不太够看{:10_250:}

小伤口 发表于 2021-3-30 23:19:43

我觉得会有{:10_250:}
最近爬京东评论就差点被封貌似
不过第二天就又好了
不过我用了多线程之后就没问题了{:10_256:}

昨非 发表于 2021-3-30 23:23:10

小伤口 发表于 2021-3-30 23:19
我觉得会有
最近爬京东评论就差点被封貌似
不过第二天就又好了


同一个IP,单线程跟多线程有区别吗?
(暂时还没用过多线程,只知道提高效率,不太了解哈)

hornwong 发表于 2021-3-30 23:24:38

{:5_95:}

小伤口 发表于 2021-3-30 23:30:19

昨非 发表于 2021-3-30 23:23
同一个IP,单线程跟多线程有区别吗?
(暂时还没用过多线程,只知道提高效率,不太了解哈)

我也是最近才知道
个人认为单线程爬取这么多数据需要很长时间{:10_297:}
很容易被怀疑{:10_266:}
多线程速度蹭蹭的往上涨{:10_275:}
服务器还没反应过来,就嘿嘿~{:10_256:}
那我自己的例子{:10_291:}
原来5分钟左右才爬完的{:10_281:}
用多线程
大概一分钟吧就ok了{:10_278:}
放心吧,大佬,这个学一会就会用了,虽然不敢保证能否理解{:10_315:}

昨非 发表于 2021-3-30 23:33:24

小伤口 发表于 2021-3-30 23:30
我也是最近才知道
个人认为单线程爬取这么多数据需要很长时间
很容易被怀疑


这我直到,但是爬虫不是最忌讳“太快”的吗{:10_256:}

小伤口 发表于 2021-3-30 23:35:19

昨非 发表于 2021-3-30 23:33
这我直到,但是爬虫不是最忌讳“太快”的吗

我理解不了 了

昨非 发表于 2021-3-30 23:37:21

小伤口 发表于 2021-3-30 23:35
我理解不了 了

坐等大佬咯{:10_256:}

yuedong 发表于 2021-3-31 00:32:50

插眼

wp231957 发表于 2021-3-31 07:39:32

你只要不干扰网站运行,估计没人理你
但因为你的爬虫,导致网站出些问题,都不用封你ip   法院会找你谈话,不要担心对方没有证据

QingCai 发表于 2021-3-31 08:10:05

插眼,学习

crisfo 发表于 2021-3-31 08:29:19

观望,学习{:10_256:}

z5560636 发表于 2021-3-31 08:30:21

昨非 发表于 2021-3-30 23:33
这我直到,但是爬虫不是最忌讳“太快”的吗

你可以自己添加延迟函数,毕竟,网页要限制的只是你IP是否真人浏览的速度,一个IP 地址慢慢爬,他也不会察觉的。高级一点的代理异步,都是类似这种思路,把单个IP的访问速度控制在一定范畴之内即可。

还有一点不要怕进去, 毕竟笔趣阁自己也不正派{:10_289:}

江湖散人 发表于 2021-3-31 09:29:00

牛逼,大神,有源代码吗?

昨非 发表于 2021-3-31 09:36:53

江湖散人 发表于 2021-3-31 09:29
牛逼,大神,有源代码吗?

会有的,暂时还是不发了

昨非 发表于 2021-3-31 13:32:46

wp231957 发表于 2021-3-31 07:39
你只要不干扰网站运行,估计没人理你
但因为你的爬虫,导致网站出些问题,都不用封你ip   法院会找你谈话 ...

应该不至于,几千次访问应该不会出问题的
再说目标网站也是盗版起家的(正版起点中文网一堆VIP限制)
。。。

noah-py 发表于 2021-3-31 17:03:31

{:10_254:}

名字只有七个字 发表于 2021-3-31 17:50:46

wow
页: [1] 2
查看完整版本: 【爬虫】单次大规模爬取小说有无风险