鱼C论坛

 找回密码
 立即注册
查看: 1319|回复: 13

[作品展示] 原创爬虫模块fastspy ,5分钟写爬全站多线程爬虫,内附爬写真网实例

[复制链接]
发表于 2020-3-21 16:54:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 kirte 于 2020-3-30 11:12 编辑


                               
登录/注册后可看大图
fastspy(快速爬虫)
快速,即写代码时间快(当然运行也快)

想学就认真看(付有实例)

模块要求
requests
lxml
redis(数据库模块)

解释:
观察多个资源网站
发现有一下特点
1:有一个或多个板块,就想fishc的各个板块,板块有几页(每一页我称做url_1)
2:每个url_1有多个帖子,称做url_2
3:每个帖子(url_2)有多页,称做url_2_x

所以本模块有4个重要的方法
func_1_next,找到url_的下一页
func_1_search,找到该url_1的url_2
func_2_next不解释了
func_2_search不解释了

你可能会懵逼在这里
没关系,你看了源代码就会懂了
这个模块将写爬虫重复的步骤全部省去了
所以,你只要重写(严格不是重写,因为没有用类)以上方法就能写出一个完美的爬虫了


目前已知bug:

xpath消耗掉cpu''资源似乎比正则表达式多,而python'
存在gil锁,导致不能使用cpu的全部实力,所以你cpu单核实力强就跑的快

解决方法:正在向多进程转换

作者的话:
我好菜,我好菜,我好菜,大佬勿喷。
动动你们的小手指,花上小小的10秒评论一下

一般的写爬虫可能要30分钟到几个小时,
而熟练使用了这个模块,就只要花5分钟左右就能写个完美的爬虫了,所以10秒有算什么呢?

最后:
码字不易,请评论关照,谢谢

github:
https://github.com/kirte2849/Fastspy
Screenshot_20200328_223809_com.termux.jpg
Screenshot_20200328_223818_com.termux.jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-21 17:50:42 | 显示全部楼层
本帖最后由 kirte 于 2020-3-29 00:00 编辑

自古一楼给楼主@一个账号 谢谢啦
版主给俺加个隐藏哒哒哒
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-21 20:26:21 From FishC Mobile | 显示全部楼层
本帖最后由 kirte 于 2020-3-28 23:28 编辑

需要学会lxml怎么用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-21 20:30:13 From FishC Mobile | 显示全部楼层
kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用,不然你会吃亏的

错了,写爬虫不在乎代码多少,主要是分析网站(网页)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-21 20:31:19 From FishC Mobile | 显示全部楼层
wp231957 发表于 2020-3-21 20:30
错了,写爬虫不在乎代码多少,主要是分析网站(网页)

二者可得兼
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-21 20:34:39 From FishC Mobile | 显示全部楼层
wp231957 发表于 2020-3-21 20:30
错了,写爬虫不在乎代码多少,主要是分析网站(网页)

而且,我之前还写过一个400行的爬虫,都不想维护了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-21 20:34:54 From FishC Mobile | 显示全部楼层
kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用,不然你会吃亏的

xpath虽然不错,可是它只能玩静态爬取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-21 20:36:41 From FishC Mobile | 显示全部楼层
wp231957 发表于 2020-3-21 20:34
xpath虽然不错,可是它只能玩静态爬取

自从re换成xpath后cpu就没有不满过了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-21 20:37:18 From FishC Mobile | 显示全部楼层
wp231957 发表于 2020-3-21 20:34
xpath虽然不错,可是它只能玩静态爬取

可是他快,代码量少,写代码速度快
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-23 10:56:53 | 显示全部楼层
no
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-23 11:04:53 | 显示全部楼层
你怎么话风像古人
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-23 11:06:11 | 显示全部楼层
非常吃cpu啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-23 11:24:46 | 显示全部楼层

没错,xpath吃cpu,但是你要想简单快速就用xpath
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-30 11:18:07 From FishC Mobile | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-25 15:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表