那皇沫路python 发表于 2019-1-6 11:16:15

深度爬取之·类封装加多线程队列爬取校花网

本帖最后由 那皇沫路python 于 2019-1-6 11:16 编辑

所需要的包
python +requests +queue+Beautifulsoup+threading


很多人可能对类封装概念不太熟悉,所以我写了一个基于类的爬虫小例子,
可以深度爬取所有页面,类中初始化了两个深度,请求深度(模拟浏览器点击页面,寻找页面跳转标签并加到队列)和下载深度,注意理解。
好像权限不够,没法发压缩包,总之,不太会用这个
class Depth:
    def __init__(self, request,down_depth=5,request_depth=0):
      self.request = request

down_depth   下载深度      这里我默认下载5个页面的内容
request_depth    请求深度      模拟浏览器点击页面,寻找页面跳转标签并加到队列

其余的应该都看得懂

看懂了可以自定义爬取任何可以直接下载的所有内容

**** Hidden Message *****

ILOVEPAPA 发表于 2019-1-6 17:34:31

==================

Python—小白 发表于 2019-1-15 22:02:54

666

C'rɑごy 发表于 2019-1-29 15:25:28

looklook

我是你大哥 发表于 2019-2-1 18:36:47

xuexiyixai

_谪仙 发表于 2019-2-3 09:51:00

1

ABC23 发表于 2019-2-3 12:04:44

11

andylesin 发表于 2019-2-4 13:23:01

tyfyu

夏天的枫 发表于 2019-2-5 02:30:49

xuexiyixai

小cp 发表于 2019-2-6 21:09:32

{:5_90:}

刘开封 发表于 2019-2-8 15:29:36

学习学习

lychee007007 发表于 2019-3-18 19:55:24

来看看

famousq 发表于 2019-3-18 21:51:40

wow~~~

Y0uWill_1Will 发表于 2019-3-19 10:37:47

厉害

沉迷include 发表于 2019-3-20 09:16:21

emmmmmmm

六芒星 发表于 2019-3-24 13:43:22

学习学习

xu247698454 发表于 2019-3-25 12:58:25

支持楼主

123459682 发表于 2019-3-25 17:51:24

看看

皮皮鲁123 发表于 2019-3-25 20:16:36

123

morton 发表于 2019-3-26 12:08:11

gggg
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 深度爬取之·类封装加多线程队列爬取校花网