|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Stubborn 于 2019-3-22 01:02 编辑
这里分享下,我的代码,主要功能是,爬取猎聘网站一些数据,存到我的数据库里面,这里用的是Mysql,最后我用了Django,搭配的,希望渔友们可以学习到一些经验,和思路吧,我也是一个小白学习上来的,甲鱼老师很厉害的,多多支持哦。喜欢的朋友,支持,点赞,评分
代码写的清楚,可以当做模板使用,以后鱼友们自己写代码记得要有写清晰,方便以后扩充,或者挪用
第一部分代码,既然要去网站抓数据,肯定要知道自己需要抓取到什么数据,用什么流程去抓,踩点。这里踩点抓公司URL的时候,发现还有“VIP”(猎头),相同的方法,不能抓取到数据,说以就分开写了.主题是五个模块,关于Django,和怎么新建数据库这里就不啰嗦了
有一些小BUG,比如在工资哪里,有的是工资面议,导致数据存不了数据库,其次如下图,城市会出现连着的数据。
还有可优化。我这里是等全部的数据爬取完成,再存数据库,而且是单线程。有喜欢的朋友可以优化
- Download.py=====>网页抓取的方法
- SutbbronTheading.py=====>线程模块,多线程抓取
- PushMysql.py=====>对已经抓好的存数据处理,存数据库
- StubbronSQL.py=====>和MySql交互提供方法
- main.py=====>程序主入口
还有一个类就不写了,一个模拟栈类,可以直接用List替代
下一章代码
|
|