新手·ing 发表于 2018-7-2 21:28:44

爬虫 | 爬取FishC淘贴入库 数据可视化

本帖最后由 新手·ing 于 2018-7-3 16:49 编辑

声明:为了减小对论坛的压力,请不要过分爬取论坛。

       要点
[*]requests,re获取数据

[*]MySQL存储数据
[*]pyecharts大数据可视化


1.爬取数据

红框中的内容就是我们要爬取的数据,右键—查看源代码,写出正则表达式如下:
成功获取数据。
由于每一页的网址都是有规律的,于是使用循环构造网址:
循环在main函数内部。

2.数据存储连接数据库并存入数据。
这里不得不吐槽一下,Python操作MySQL,转义,占位符支持的真的不是很好,经常会有一些莫名其妙的报错。

不过,数据成功入库后,笔者心里就有一种极大的成就感。

笔者使用的数据库可视化工具是 Navicat,很棒,只不过不是免费的。笔者把安装包放在桌面,试用期一到,就重新下载嘿嘿。

3.数据可视化这一步是最有趣的,尤其是一张美观的图表展现在眼前时。笔者使用pyecharts,(Echarts:百度良心开源框架)
这是根据订阅量制成的柱状图:
这是根据主题数制成的柱状图:
根据淘贴数量制成的云图:
通过这三张图,我们可以直观的看出 不二如是 大佬是这个论坛的顶梁柱之一,订阅量和主题数都稳居榜首。

4.逻辑代码                                                                                                                                                                                                                                                                                          回复查看源代码:**** Hidden Message *****
@小甲鱼 申精。

不二如是 发表于 2018-7-3 09:37:14

小建议:关注公众号获得源码,理论上很难加精哦~

文章很实用,属于通俗易懂系列,并且外延性很强!

至于想加精,源码是否直接开源,新手自行决定~

zhou995287902 发表于 2018-7-3 08:51:45

{:5_91:}

15184683251 发表于 2018-7-3 10:09:39

{:10_256:}

小甲鱼 发表于 2018-7-3 15:26:30

{:10_256:} 实用性很强!

新手·ing 发表于 2018-7-3 16:50:04

不二如是 发表于 2018-7-3 09:37
小建议:关注公众号获得源码,理论上很难加精哦~

文章很实用,属于通俗易懂系列,并且外延性很强!


{:10_254:}好的。

mintaka 发表于 2018-7-3 16:54:16

{:10_254:}

最爱丽丽 发表于 2018-7-3 19:45:22

1

新手·ing 发表于 2018-7-3 20:03:17

不二如是 发表于 2018-7-3 09:37
小建议:关注公众号获得源码,理论上很难加精哦~

文章很实用,属于通俗易懂系列,并且外延性很强!


申精。

拉了盏灯 发表于 2018-7-3 20:31:45

学习学习

coco_sun 发表于 2018-7-3 20:57:52

学习学习

老大徒伤悲 发表于 2018-7-3 22:05:36

来学习了!

YuGuii 发表于 2018-7-3 22:28:02

RE: 爬虫 | 爬取FishC淘贴入库 数据可视化 [修改]

R.Westbrook 发表于 2018-7-4 08:53:02

厉害啊

wkwkwk 发表于 2018-7-4 10:14:17

努力学习啊。。。

95z 发表于 2018-7-4 12:13:04

鱼C有你更精彩^_^

alltolove 发表于 2018-7-4 13:34:01

我在不二脑袋上哈哈{:10_256:}

花开半夏さぎ 发表于 2018-7-4 13:54:48

{:10_297:}

小人 发表于 2018-7-4 15:39:09

{:5_107:}看了一遍 果然没有我的id

看到美媚流口水 发表于 2018-7-4 23:52:57

牛逼啊
页: [1] 2 3 4 5 6 7
查看完整版本: 爬虫 | 爬取FishC淘贴入库 数据可视化