Stubborn 发表于 2019-3-19 03:57:03

练手项目(猎聘+Mysql):(requests+xpath+多线程)--01章

本帖最后由 Stubborn 于 2019-3-22 01:02 编辑

这里分享下,我的代码,主要功能是,爬取猎聘网站一些数据,存到我的数据库里面,这里用的是Mysql,最后我用了Django,搭配的,希望渔友们可以学习到一些经验,和思路吧,我也是一个小白学习上来的,甲鱼老师很厉害的,多多支持哦。喜欢的朋友,支持,点赞,评分
代码写的清楚,可以当做模板使用,以后鱼友们自己写代码记得要有写清晰,方便以后扩充,或者挪用
第一部分代码,既然要去网站抓数据,肯定要知道自己需要抓取到什么数据,用什么流程去抓,踩点。这里踩点抓公司URL的时候,发现还有“VIP”(猎头),相同的方法,不能抓取到数据,说以就分开写了.主题是五个模块,关于Django,和怎么新建数据库这里就不啰嗦了
有一些小BUG,比如在工资哪里,有的是工资面议,导致数据存不了数据库,其次如下图,城市会出现连着的数据。
还有可优化。我这里是等全部的数据爬取完成,再存数据库,而且是单线程。有喜欢的朋友可以优化

[*]Download.py=====>网页抓取的方法
[*]SutbbronTheading.py=====>线程模块,多线程抓取
[*]PushMysql.py=====>对已经抓好的存数据处理,存数据库
[*]StubbronSQL.py=====>和MySql交互提供方法
[*]main.py=====>程序主入口

还有一个类就不写了,一个模拟栈类,可以直接用List替代


**** Hidden Message *****

下一章代码   

Stubborn 发表于 2019-3-20 23:57:00

@冬雪雪冬 剩余一个帖子被审核了,发不过{:10_266:}{:10_266:}可以申请加精吗

强大阿宾 发表于 2019-3-21 00:52:10

{:10_277:}

海风zZ 发表于 2019-3-26 07:56:50

学习一下

水柔炎 发表于 2019-3-26 08:49:41

6666

Wgq 发表于 2019-3-27 21:42:05

给力

COOLmana 发表于 2019-5-2 00:13:57

1

lsddzx 发表于 2019-5-5 20:40:01

学习中。。。。。

wp231957 发表于 2019-5-5 21:33:16

顶你

Stubborn 发表于 2019-5-5 21:34:45

wp231957 发表于 2019-5-5 21:33
顶你

{:10_278:}

wp231957 发表于 2019-5-5 21:39:10

Stubborn 发表于 2019-5-5 21:34


太打击人了,如果改单线程,速度会翻倍下降吗
如果不,为神马要写多线程呢

Stubborn 发表于 2019-5-6 03:30:46

wp231957 发表于 2019-5-5 21:39
太打击人了,如果改单线程,速度会翻倍下降吗
如果不,为神马要写多线程呢

就和一个人去挑水,一群人去挑水一样,多线程速度肯定会快,后期用框架,甚至是异步,速度回更快

Chen16 发表于 2019-5-6 14:21:01

{:10_277:}

glowrush 发表于 2019-6-15 17:05:10

{:5_102:}

futurebless 发表于 2019-6-15 23:35:08

可以

小小.甲鱼 发表于 2019-9-12 00:21:22

{:5_90:}

kinghanmin13 发表于 2019-10-22 11:45:19

学习一下

jhf123 发表于 2019-10-23 06:44:19

学习中...

eni 发表于 2019-11-11 17:45:10

学习一下

Y0uWill_1Will 发表于 2019-11-13 11:46:28

学习一下
页: [1] 2
查看完整版本: 练手项目(猎聘+Mysql):(requests+xpath+多线程)--01章