那皇沫路python
发表于 2019-1-6 11:16:15
深度爬取之·类封装加多线程队列爬取校花网
本帖最后由 那皇沫路python 于 2019-1-6 11:16 编辑
所需要的包
python +requests +queue+Beautifulsoup+threading
很多人可能对类封装概念不太熟悉,所以我写了一个基于类的爬虫小例子,
可以深度爬取所有页面,类中初始化了两个深度,请求深度(模拟浏览器点击页面,寻找页面跳转标签并加到队列)和下载深度,注意理解。
好像权限不够,没法发压缩包,总之,不太会用这个
class Depth:
def __init__(self, request,down_depth=5,request_depth=0):
self.request = request
down_depth 下载深度 这里我默认下载5个页面的内容
request_depth 请求深度 模拟浏览器点击页面,寻找页面跳转标签并加到队列
其余的应该都看得懂
看懂了可以自定义爬取任何可以直接下载的所有内容
**** Hidden Message *****
ILOVEPAPA
发表于 2019-1-6 17:34:31
==================
Python—小白
发表于 2019-1-15 22:02:54
666
C'rɑごy
发表于 2019-1-29 15:25:28
looklook
我是你大哥
发表于 2019-2-1 18:36:47
xuexiyixai
_谪仙
发表于 2019-2-3 09:51:00
1
ABC23
发表于 2019-2-3 12:04:44
11
andylesin
发表于 2019-2-4 13:23:01
tyfyu
夏天的枫
发表于 2019-2-5 02:30:49
xuexiyixai
小cp
发表于 2019-2-6 21:09:32
{:5_90:}
刘开封
发表于 2019-2-8 15:29:36
学习学习
lychee007007
发表于 2019-3-18 19:55:24
来看看
famousq
发表于 2019-3-18 21:51:40
wow~~~
Y0uWill_1Will
发表于 2019-3-19 10:37:47
厉害
沉迷include
发表于 2019-3-20 09:16:21
emmmmmmm
六芒星
发表于 2019-3-24 13:43:22
学习学习
xu247698454
发表于 2019-3-25 12:58:25
支持楼主
123459682
发表于 2019-3-25 17:51:24
看看
皮皮鲁123
发表于 2019-3-25 20:16:36
123
morton
发表于 2019-3-26 12:08:11
gggg
页:
[1]
2
3
4
5
6
7
8
9
10