爬虫 | 爬取FishC淘贴入库 数据可视化
本帖最后由 新手·ing 于 2018-7-3 16:49 编辑声明:为了减小对论坛的压力,请不要过分爬取论坛。
要点
[*]requests,re获取数据
[*]MySQL存储数据
[*]pyecharts大数据可视化
1.爬取数据
红框中的内容就是我们要爬取的数据,右键—查看源代码,写出正则表达式如下:
成功获取数据。
由于每一页的网址都是有规律的,于是使用循环构造网址:
循环在main函数内部。
2.数据存储连接数据库并存入数据。
这里不得不吐槽一下,Python操作MySQL,转义,占位符支持的真的不是很好,经常会有一些莫名其妙的报错。
不过,数据成功入库后,笔者心里就有一种极大的成就感。
笔者使用的数据库可视化工具是 Navicat,很棒,只不过不是免费的。笔者把安装包放在桌面,试用期一到,就重新下载嘿嘿。
3.数据可视化这一步是最有趣的,尤其是一张美观的图表展现在眼前时。笔者使用pyecharts,(Echarts:百度良心开源框架)
这是根据订阅量制成的柱状图:
这是根据主题数制成的柱状图:
根据淘贴数量制成的云图:
通过这三张图,我们可以直观的看出 不二如是 大佬是这个论坛的顶梁柱之一,订阅量和主题数都稳居榜首。
4.逻辑代码 回复查看源代码:**** Hidden Message *****
@小甲鱼 申精。
小建议:关注公众号获得源码,理论上很难加精哦~
文章很实用,属于通俗易懂系列,并且外延性很强!
至于想加精,源码是否直接开源,新手自行决定~ {:5_91:} {:10_256:} {:10_256:} 实用性很强! 不二如是 发表于 2018-7-3 09:37
小建议:关注公众号获得源码,理论上很难加精哦~
文章很实用,属于通俗易懂系列,并且外延性很强!
{:10_254:}好的。 {:10_254:} 1 不二如是 发表于 2018-7-3 09:37
小建议:关注公众号获得源码,理论上很难加精哦~
文章很实用,属于通俗易懂系列,并且外延性很强!
申精。 学习学习
学习学习 来学习了! RE: 爬虫 | 爬取FishC淘贴入库 数据可视化 [修改] 厉害啊
努力学习啊。。。 鱼C有你更精彩^_^ 我在不二脑袋上哈哈{:10_256:} {:10_297:} {:5_107:}看了一遍 果然没有我的id 牛逼啊