原创爬虫模块fastspy ,5分钟写爬全站多线程爬虫,内附爬写真网实例
本帖最后由 kirte 于 2020-3-30 11:12 编辑https://github.com/kirte2849/Fastspy/blob/master/Screenshot_20200330_110633_bin.mt.plus.jpg?raw=truefastspy(快速爬虫)
快速,即写代码时间快(当然运行也快)
想学就认真看(付有实例)
模块要求
requests
lxml
redis(数据库模块)
解释:
观察多个资源网站
发现有一下特点
1:有一个或多个板块,就想fishc的各个板块,板块有几页(每一页我称做url_1)
2:每个url_1有多个帖子,称做url_2
3:每个帖子(url_2)有多页,称做url_2_x
所以本模块有4个重要的方法
func_1_next,找到url_的下一页
func_1_search,找到该url_1的url_2
func_2_next不解释了
func_2_search不解释了
你可能会懵逼在这里
没关系,你看了源代码就会懂了
这个模块将写爬虫重复的步骤全部省去了
所以,你只要重写(严格不是重写,因为没有用类)以上方法就能写出一个完美的爬虫了
目前已知bug:
xpath消耗掉cpu''资源似乎比正则表达式多,而python'
存在gil锁,导致不能使用cpu的全部实力,所以你cpu单核实力强就跑的快
解决方法:正在向多进程转换
作者的话:
我好菜,我好菜,我好菜,大佬勿喷。
动动你们的小手指,花上小小的10秒评论一下
一般的写爬虫可能要30分钟到几个小时,
而熟练使用了这个模块,就只要花5分钟左右就能写个完美的爬虫了,所以10秒有算什么呢?
最后:
码字不易,请评论关照,谢谢
github:
https://github.com/kirte2849/Fastspy
本帖最后由 kirte 于 2020-3-29 00:00 编辑
自古一楼给楼主@一个账号 谢谢啦
版主给俺加个隐藏哒哒哒 本帖最后由 kirte 于 2020-3-28 23:28 编辑
需要学会lxml怎么用 kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用,不然你会吃亏的
错了,写爬虫不在乎代码多少,主要是分析网站(网页) wp231957 发表于 2020-3-21 20:30
错了,写爬虫不在乎代码多少,主要是分析网站(网页)
二者可得兼 wp231957 发表于 2020-3-21 20:30
错了,写爬虫不在乎代码多少,主要是分析网站(网页)
而且,我之前还写过一个400行的爬虫,都不想维护了 kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用,不然你会吃亏的
xpath虽然不错,可是它只能玩静态爬取 wp231957 发表于 2020-3-21 20:34
xpath虽然不错,可是它只能玩静态爬取
自从re换成xpath后cpu就没有不满过了 wp231957 发表于 2020-3-21 20:34
xpath虽然不错,可是它只能玩静态爬取
可是他快,代码量少,写代码速度快 no 你怎么话风像古人 非常吃cpu啊 2420775703 发表于 2020-3-23 11:06
非常吃cpu啊
没错,xpath吃cpu,但是你要想简单快速就用xpath
页:
[1]