kirte 发表于 2020-3-21 16:54:08

原创爬虫模块fastspy ,5分钟写爬全站多线程爬虫,内附爬写真网实例

本帖最后由 kirte 于 2020-3-30 11:12 编辑

https://github.com/kirte2849/Fastspy/blob/master/Screenshot_20200330_110633_bin.mt.plus.jpg?raw=truefastspy(快速爬虫)
快速,即写代码时间快(当然运行也快)

想学就认真看(付有实例)

模块要求
requests
lxml
redis(数据库模块)

解释:
观察多个资源网站
发现有一下特点
1:有一个或多个板块,就想fishc的各个板块,板块有几页(每一页我称做url_1)
2:每个url_1有多个帖子,称做url_2
3:每个帖子(url_2)有多页,称做url_2_x

所以本模块有4个重要的方法
func_1_next,找到url_的下一页
func_1_search,找到该url_1的url_2
func_2_next不解释了
func_2_search不解释了

你可能会懵逼在这里
没关系,你看了源代码就会懂了
这个模块将写爬虫重复的步骤全部省去了
所以,你只要重写(严格不是重写,因为没有用类)以上方法就能写出一个完美的爬虫了


目前已知bug:

xpath消耗掉cpu''资源似乎比正则表达式多,而python'
存在gil锁,导致不能使用cpu的全部实力,所以你cpu单核实力强就跑的快

解决方法:正在向多进程转换

作者的话:
我好菜,我好菜,我好菜,大佬勿喷。
动动你们的小手指,花上小小的10秒评论一下

一般的写爬虫可能要30分钟到几个小时,
而熟练使用了这个模块,就只要花5分钟左右就能写个完美的爬虫了,所以10秒有算什么呢?

最后:
码字不易,请评论关照,谢谢

github:
https://github.com/kirte2849/Fastspy

kirte 发表于 2020-3-21 17:50:42

本帖最后由 kirte 于 2020-3-29 00:00 编辑

自古一楼给楼主@一个账号 谢谢啦
版主给俺加个隐藏哒哒哒

kirte 发表于 2020-3-21 20:26:21

本帖最后由 kirte 于 2020-3-28 23:28 编辑

需要学会lxml怎么用

wp231957 发表于 2020-3-21 20:30:13

kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用,不然你会吃亏的

错了,写爬虫不在乎代码多少,主要是分析网站(网页)

kirte 发表于 2020-3-21 20:31:19

wp231957 发表于 2020-3-21 20:30
错了,写爬虫不在乎代码多少,主要是分析网站(网页)

二者可得兼

kirte 发表于 2020-3-21 20:34:39

wp231957 发表于 2020-3-21 20:30
错了,写爬虫不在乎代码多少,主要是分析网站(网页)

而且,我之前还写过一个400行的爬虫,都不想维护了

wp231957 发表于 2020-3-21 20:34:54

kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用,不然你会吃亏的

xpath虽然不错,可是它只能玩静态爬取

kirte 发表于 2020-3-21 20:36:41

wp231957 发表于 2020-3-21 20:34
xpath虽然不错,可是它只能玩静态爬取

自从re换成xpath后cpu就没有不满过了

kirte 发表于 2020-3-21 20:37:18

wp231957 发表于 2020-3-21 20:34
xpath虽然不错,可是它只能玩静态爬取

可是他快,代码量少,写代码速度快

kirte 发表于 2020-3-23 10:56:53

no

wangka 发表于 2020-3-23 11:04:53

你怎么话风像古人

2420775703 发表于 2020-3-23 11:06:11

非常吃cpu啊

kirte 发表于 2020-3-23 11:24:46

2420775703 发表于 2020-3-23 11:06
非常吃cpu啊

没错,xpath吃cpu,但是你要想简单快速就用xpath

kirte 发表于 2020-3-30 11:18:07

页: [1]
查看完整版本: 原创爬虫模块fastspy ,5分钟写爬全站多线程爬虫,内附爬写真网实例