新手·ing 发表于 2019-1-20 19:17:36

终于还是向论坛下手了 | 爬虫分析问题时间流

本帖最后由 新手·ing 于 2019-1-23 18:36 编辑

相信一部分乐于助人的鱼油在新奖励模式的推动下,会废寝忘食的守在电脑前,耐心的为新人回答问题。

然而,总不可能整天盯着电脑,只能随缘碰到一个问题就解决一个。

基于以上问题,我决定爬取论坛之前已经解决过的将近4万个问题的问题发布时间,分析大部分问题的发布时间规律。



红框中的时间即为所求,而查看源代码就可以发现,数据都是可以直接爬取的。

而每一页的链接只要修改一下page即可。

于是乎写出代码:
**** Hidden Message *****只是一个65行的辣鸡小爬虫。

不过不要妄想着直接爬了,论坛大概是加了反爬虫措施。

为了论坛安危(个人安危)我是不会提供 proxy.txt 的!

就看看结论吧~

**** Hidden Message *****

可以看到,4~5点,21~22点为问题高峰期,从12点开始下降。

不过这2000页大概爬了15分钟左右(单线程),仿佛闻到了显卡的香气,准备去学习下多线程。

代码写的比较业余,有问题希望可以和大家一起探讨。

幻千城12 发表于 2019-1-20 19:51:16

学习一下

小cp 发表于 2019-1-21 02:54:16

{:10_277:}

毛绒绒 发表于 2019-1-21 20:11:59

感谢楼主!!

卫123 发表于 2019-1-21 22:03:29

感谢楼主

新手·ing 发表于 2019-1-23 18:36:38

{:10_245:}

zysmdsds 发表于 2019-1-24 18:11:44

66666666666666666

laosiji 发表于 2019-1-24 19:12:36

学习一下

tracyqan 发表于 2019-1-25 14:58:31

6666

虚无→与→飘渺 发表于 2019-1-25 15:57:35

代理服务器违法吗?涉及安危问题?{:10_264:}

新手·ing 发表于 2019-1-25 16:27:54

虚无→与→飘渺 发表于 2019-1-25 15:57
代理服务器违法吗?涉及安危问题?

不像是以前那样一点都不管制了,现在不是正常手段获取的数据肯定是违法的。

屌丝恨作业多 发表于 2019-1-26 17:28:25

{:10_256:}

林宥小老虎 发表于 2019-1-26 19:56:27

晚上看代码的人应该多

yaohl0911 发表于 2019-1-26 23:33:33

学习一下

gobaketohome 发表于 2019-1-29 20:51:18


学习一下

Apollp 发表于 2019-1-29 20:56:59

先手y

szhai1969 发表于 2019-1-29 21:40:53

{:5_102:} 过分.论坛都不放过

狂竹 发表于 2019-1-29 22:25:50

支持支持

gobaketohome 发表于 2019-1-30 10:00:56

楼主 加一点注释可好

anticheung 发表于 2019-1-30 10:16:41

学习了~
页: [1] 2
查看完整版本: 终于还是向论坛下手了 | 爬虫分析问题时间流