练手项目(猎聘+Mysql):(requests+xpath+多线程)--01章
本帖最后由 Stubborn 于 2019-3-22 01:02 编辑这里分享下,我的代码,主要功能是,爬取猎聘网站一些数据,存到我的数据库里面,这里用的是Mysql,最后我用了Django,搭配的,希望渔友们可以学习到一些经验,和思路吧,我也是一个小白学习上来的,甲鱼老师很厉害的,多多支持哦。喜欢的朋友,支持,点赞,评分
代码写的清楚,可以当做模板使用,以后鱼友们自己写代码记得要有写清晰,方便以后扩充,或者挪用
第一部分代码,既然要去网站抓数据,肯定要知道自己需要抓取到什么数据,用什么流程去抓,踩点。这里踩点抓公司URL的时候,发现还有“VIP”(猎头),相同的方法,不能抓取到数据,说以就分开写了.主题是五个模块,关于Django,和怎么新建数据库这里就不啰嗦了
有一些小BUG,比如在工资哪里,有的是工资面议,导致数据存不了数据库,其次如下图,城市会出现连着的数据。
还有可优化。我这里是等全部的数据爬取完成,再存数据库,而且是单线程。有喜欢的朋友可以优化
[*]Download.py=====>网页抓取的方法
[*]SutbbronTheading.py=====>线程模块,多线程抓取
[*]PushMysql.py=====>对已经抓好的存数据处理,存数据库
[*]StubbronSQL.py=====>和MySql交互提供方法
[*]main.py=====>程序主入口
还有一个类就不写了,一个模拟栈类,可以直接用List替代
**** Hidden Message *****
下一章代码
@冬雪雪冬 剩余一个帖子被审核了,发不过{:10_266:}{:10_266:}可以申请加精吗 {:10_277:} 学习一下 6666
给力 1 学习中。。。。。 顶你 wp231957 发表于 2019-5-5 21:33
顶你
{:10_278:} Stubborn 发表于 2019-5-5 21:34
太打击人了,如果改单线程,速度会翻倍下降吗
如果不,为神马要写多线程呢 wp231957 发表于 2019-5-5 21:39
太打击人了,如果改单线程,速度会翻倍下降吗
如果不,为神马要写多线程呢
就和一个人去挑水,一群人去挑水一样,多线程速度肯定会快,后期用框架,甚至是异步,速度回更快 {:10_277:} {:5_102:} 可以 {:5_90:} 学习一下 学习中... 学习一下 学习一下
页:
[1]
2