|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 kirte 于 2020-3-30 11:12 编辑
fastspy(快速爬虫)
快速,即写代码时间快(当然运行也快)
想学就认真看(付有实例)
模块要求
requests
lxml
redis(数据库模块)
解释:
观察多个资源网站
发现有一下特点
1:有一个或多个板块,就想fishc的各个板块,板块有几页(每一页我称做url_1)
2:每个url_1有多个帖子,称做url_2
3:每个帖子(url_2)有多页,称做url_2_x
所以本模块有4个重要的方法
func_1_next,找到url_的下一页
func_1_search,找到该url_1的url_2
func_2_next不解释了
func_2_search不解释了
你可能会懵逼在这里
没关系,你看了源代码就会懂了
这个模块将写爬虫重复的步骤全部省去了
所以,你只要重写(严格不是重写,因为没有用类)以上方法就能写出一个完美的爬虫了
目前已知bug:
xpath消耗掉cpu''资源似乎比正则表达式多,而python'
存在gil锁,导致不能使用cpu的全部实力,所以你cpu单核实力强就跑的快
解决方法:正在向多进程转换
作者的话:
我好菜,我好菜,我好菜,大佬勿喷。
动动你们的小手指,花上小小的10秒评论一下
一般的写爬虫可能要30分钟到几个小时,
而熟练使用了这个模块,就只要花5分钟左右就能写个完美的爬虫了,所以10秒有算什么呢?
最后:
码字不易,请评论关照,谢谢
github:
https://github.com/kirte2849/Fastspy
|
|