终于还是向论坛下手了 | 爬虫分析问题时间流
本帖最后由 新手·ing 于 2019-1-23 18:36 编辑相信一部分乐于助人的鱼油在新奖励模式的推动下,会废寝忘食的守在电脑前,耐心的为新人回答问题。
然而,总不可能整天盯着电脑,只能随缘碰到一个问题就解决一个。
基于以上问题,我决定爬取论坛之前已经解决过的将近4万个问题的问题发布时间,分析大部分问题的发布时间规律。
红框中的时间即为所求,而查看源代码就可以发现,数据都是可以直接爬取的。
而每一页的链接只要修改一下page即可。
于是乎写出代码:
**** Hidden Message *****只是一个65行的辣鸡小爬虫。
不过不要妄想着直接爬了,论坛大概是加了反爬虫措施。
为了论坛安危(个人安危)我是不会提供 proxy.txt 的!
就看看结论吧~
**** Hidden Message *****
可以看到,4~5点,21~22点为问题高峰期,从12点开始下降。
不过这2000页大概爬了15分钟左右(单线程),仿佛闻到了显卡的香气,准备去学习下多线程。
代码写的比较业余,有问题希望可以和大家一起探讨。
学习一下 {:10_277:} 感谢楼主!! 感谢楼主 {:10_245:} 66666666666666666 学习一下 6666 代理服务器违法吗?涉及安危问题?{:10_264:} 虚无→与→飘渺 发表于 2019-1-25 15:57
代理服务器违法吗?涉及安危问题?
不像是以前那样一点都不管制了,现在不是正常手段获取的数据肯定是违法的。 {:10_256:} 晚上看代码的人应该多 学习一下
学习一下 先手y {:5_102:} 过分.论坛都不放过 支持支持 楼主 加一点注释可好 学习了~
页:
[1]
2