鱼C论坛

 找回密码
 立即注册
查看: 33618|回复: 194

[技术交流] 深度爬取之·类封装加多线程队列爬取校花网

  [复制链接]
发表于 2019-1-6 11:16:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 那皇沫路python 于 2019-1-6 11:16 编辑

所需要的包
python +requests +queue+Beautifulsoup+threading


很多人可能对类封装概念不太熟悉,所以我写了一个基于类的爬虫小例子,
可以深度爬取所有页面,类中初始化了两个深度,请求深度(模拟浏览器点击页面,寻找页面跳转标签并加到队列)和下载深度,注意理解。
好像权限不够,没法发压缩包,总之,不太会用这个
  1. class Depth:
  2.     def __init__(self, request,down_depth=5,request_depth=0):
  3.         self.request = request
复制代码


down_depth     下载深度        这里我默认下载5个页面的内容
request_depth    请求深度      模拟浏览器点击页面,寻找页面跳转标签并加到队列

其余的应该都看得懂

看懂了可以自定义爬取任何可以直接下载的所有内容

游客,如果您要查看本帖隐藏内容请回复

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-11-7 03:19

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表