原创爬虫模块fastspy ，5分钟写爬全站多线程爬虫，内附爬写真网实例,Python交流,编程语言专区,鱼C论坛

kirte 发表于 2020-3-21 16:54:08

原创爬虫模块fastspy ，5分钟写爬全站多线程爬虫，内附爬写真网实例

本帖最后由 kirte 于 2020-3-30 11:12 编辑

https://github.com/kirte2849/Fastspy/blob/master/Screenshot_20200330_110633_bin.mt.plus.jpg?raw=truefastspy（快速爬虫）
快速，即写代码时间快（当然运行也快）

想学就认真看（付有实例）

模块要求
requests
lxml
redis（数据库模块）

解释：
观察多个资源网站
发现有一下特点
1：有一个或多个板块，就想fishc的各个板块，板块有几页（每一页我称做url_1）
2：每个url_1有多个帖子，称做url_2
3：每个帖子（url_2）有多页，称做url_2_x

所以本模块有4个重要的方法
func_1_next，找到url_的下一页
func_1_search，找到该url_1的url_2
func_2_next不解释了
func_2_search不解释了

你可能会懵逼在这里
没关系，你看了源代码就会懂了
这个模块将写爬虫重复的步骤全部省去了
所以，你只要重写（严格不是重写，因为没有用类）以上方法就能写出一个完美的爬虫了

目前已知bug：

xpath消耗掉cpu''资源似乎比正则表达式多，而python'
存在gil锁，导致不能使用cpu的全部实力，所以你cpu单核实力强就跑的快

解决方法：正在向多进程转换

作者的话：
我好菜，我好菜，我好菜，大佬勿喷。
动动你们的小手指，花上小小的10秒评论一下

一般的写爬虫可能要30分钟到几个小时，
而熟练使用了这个模块，就只要花5分钟左右就能写个完美的爬虫了，所以10秒有算什么呢？

最后：
码字不易，请评论关照，谢谢

github：
https://github.com/kirte2849/Fastspy

kirte 发表于 2020-3-21 17:50:42

本帖最后由 kirte 于 2020-3-29 00:00 编辑

自古一楼给楼主@一个账号谢谢啦
版主给俺加个隐藏哒哒哒

kirte 发表于 2020-3-21 20:26:21

本帖最后由 kirte 于 2020-3-28 23:28 编辑

需要学会lxml怎么用

wp231957 发表于 2020-3-21 20:30:13

kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用，不然你会吃亏的

错了，写爬虫不在乎代码多少，主要是分析网站（网页）

kirte 发表于 2020-3-21 20:31:19

wp231957 发表于 2020-3-21 20:30
错了，写爬虫不在乎代码多少，主要是分析网站（网页）

二者可得兼

kirte 发表于 2020-3-21 20:34:39

wp231957 发表于 2020-3-21 20:30
错了，写爬虫不在乎代码多少，主要是分析网站（网页）

而且，我之前还写过一个400行的爬虫，都不想维护了

wp231957 发表于 2020-3-21 20:34:54

kirte 发表于 2020-3-21 20:26
需要学会lxml怎么用，不然你会吃亏的

xpath虽然不错，可是它只能玩静态爬取

kirte 发表于 2020-3-21 20:36:41

wp231957 发表于 2020-3-21 20:34
xpath虽然不错，可是它只能玩静态爬取

自从re换成xpath后cpu就没有不满过了

kirte 发表于 2020-3-21 20:37:18

wp231957 发表于 2020-3-21 20:34
xpath虽然不错，可是它只能玩静态爬取

可是他快，代码量少，写代码速度快

kirte 发表于 2020-3-23 10:56:53

wangka 发表于 2020-3-23 11:04:53

你怎么话风像古人

2420775703 发表于 2020-3-23 11:06:11

非常吃cpu啊

kirte 发表于 2020-3-23 11:24:46

2420775703 发表于 2020-3-23 11:06
非常吃cpu啊

没错，xpath吃cpu，但是你要想简单快速就用xpath

kirte 发表于 2020-3-30 11:18:07

页: [1]

鱼C论坛's Archiver

原创爬虫模块fastspy ，5分钟写爬全站多线程爬虫，内附爬写真网实例