【爬虫】单次大规模爬取小说有无风险
近期在写爬取小说的爬虫程序,大概爬取范围是要覆盖掉整个笔趣阁网站的所有小说的每个章节(当然,不会全部爬取,只是初步计划按照用户需求以本为单位爬取,加载到本地以支持离线阅读)
整体框架已经写好了,只不过调试时不敢大规模爬取
emmm
大概每本小说有1000~5000不等的章节内容,想问一下一次性抓取下来有无IP被ban的风险
或者除了用代理IP之外(考虑到不稳定,所以不作为首选),有无解决方案
(经验性问题,欢迎大家指教)
大侠求代码,,, kl84114 发表于 2021-3-30 23:14
大侠求代码,,,
完成了自会发出来的
现在嘛,还不太够看{:10_250:} 我觉得会有{:10_250:}
最近爬京东评论就差点被封貌似
不过第二天就又好了
不过我用了多线程之后就没问题了{:10_256:} 小伤口 发表于 2021-3-30 23:19
我觉得会有
最近爬京东评论就差点被封貌似
不过第二天就又好了
同一个IP,单线程跟多线程有区别吗?
(暂时还没用过多线程,只知道提高效率,不太了解哈) {:5_95:} 昨非 发表于 2021-3-30 23:23
同一个IP,单线程跟多线程有区别吗?
(暂时还没用过多线程,只知道提高效率,不太了解哈)
我也是最近才知道
个人认为单线程爬取这么多数据需要很长时间{:10_297:}
很容易被怀疑{:10_266:}
多线程速度蹭蹭的往上涨{:10_275:}
服务器还没反应过来,就嘿嘿~{:10_256:}
那我自己的例子{:10_291:}
原来5分钟左右才爬完的{:10_281:}
用多线程
大概一分钟吧就ok了{:10_278:}
放心吧,大佬,这个学一会就会用了,虽然不敢保证能否理解{:10_315:} 小伤口 发表于 2021-3-30 23:30
我也是最近才知道
个人认为单线程爬取这么多数据需要很长时间
很容易被怀疑
这我直到,但是爬虫不是最忌讳“太快”的吗{:10_256:} 昨非 发表于 2021-3-30 23:33
这我直到,但是爬虫不是最忌讳“太快”的吗
我理解不了 了 小伤口 发表于 2021-3-30 23:35
我理解不了 了
坐等大佬咯{:10_256:} 插眼
你只要不干扰网站运行,估计没人理你
但因为你的爬虫,导致网站出些问题,都不用封你ip 法院会找你谈话,不要担心对方没有证据 插眼,学习 观望,学习{:10_256:} 昨非 发表于 2021-3-30 23:33
这我直到,但是爬虫不是最忌讳“太快”的吗
你可以自己添加延迟函数,毕竟,网页要限制的只是你IP是否真人浏览的速度,一个IP 地址慢慢爬,他也不会察觉的。高级一点的代理异步,都是类似这种思路,把单个IP的访问速度控制在一定范畴之内即可。
还有一点不要怕进去, 毕竟笔趣阁自己也不正派{:10_289:} 牛逼,大神,有源代码吗? 江湖散人 发表于 2021-3-31 09:29
牛逼,大神,有源代码吗?
会有的,暂时还是不发了 wp231957 发表于 2021-3-31 07:39
你只要不干扰网站运行,估计没人理你
但因为你的爬虫,导致网站出些问题,都不用封你ip 法院会找你谈话 ...
应该不至于,几千次访问应该不会出问题的
再说目标网站也是盗版起家的(正版起点中文网一堆VIP限制)
。。。 {:10_254:} wow
页:
[1]
2