鱼C论坛

 找回密码
 立即注册
查看: 1822|回复: 4

[作品展示] 爬虫--爬取小视频案例

[复制链接]
发表于 2019-3-3 16:37:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. #!/usr/bin/env python3.7
  2. # _*_ coding: utf-8 _*_
  3. # @Time   : 2019/3/315:03
  4. # @Author : Stubbron
  5. # @Email  : 1263270345@qq.com
  6. #文件     :使用自定义模块.py
  7. #IDE      :PyCharm
  8. import requests
  9. from fake_useragent import UserAgent
  10. import time

  11. ua = UserAgent() #随记生成User-Agent

  12. def downloads(url,path):
  13.     #开始下载的时间
  14.     start = time.time()
  15.     size = 0

  16.     headers = {
  17.         "User-Agent": ua.random
  18.     }

  19.     # stream 属性必须带上
  20.     response = requests.get(url,headers=headers,stream=True)
  21.     # print(response)
  22.     #每次下次的数据大小
  23.     chunk_size = 1024
  24.     #视频总大小
  25.     content_size = int(response.headers["content-length"])

  26.     if response.status_code == 200:
  27.         #文件读写
  28.         with open(path,"wb") as f:
  29.             #l浏览器发送给数据的数据
  30.             for data in response.iter_content(chunk_size=chunk_size):
  31.                 #获取到的数据写入
  32.                 f.write(data)
  33.                 #已经下载的文件大小
  34.                 size += len(data)
  35.                 #进度条
  36.                 print("\r"+"[下载进度]:%s%.2f%%" %(">"*int(size * 50 / content_size),float(size / content_size * 100)),end= " ")
  37.         #结束时间
  38.         end = time.time()

  39.         print("\n"+"视频下载完成 用时:{}".format(end - start))

  40. def Thje_url(page):
  41.     "通过API获取到视频的详细信息"
  42.     uri = "http://api.vc.bilibili.com/board/v1/ranking/top?page_size=10&next_offset=&tag=%E4%BB%8A%E6%97%A5%E7%83%AD%E9%97%A8&platform=pc"
  43.     url = "http://api.vc.bilibili.com/board/v1/ranking/top?page_size={}&next_offset=&tag=%E4%BB%8A%E6%97%A5%E7%83%AD%E9%97%A8&platform=pc".format(page)

  44.     #模拟用户请求;添加请求头User-Agent
  45.     headers = {
  46.         "User-Agent": ua.random
  47.     }

  48.     #模拟用户请求网页
  49.     sponse = requests.get(url,headers=headers).json()
  50.     #通过data来取到最终的视频原址连接
  51.     item = sponse.get("data").get("items")
  52.     # print(item)
  53.     for i in item:
  54.         #得到item对应数据
  55.         ite = i.get("item")
  56.         # print(ite)
  57.         #获取到视频标题
  58.         Video_name = ite.get('description')
  59.         #视频发布日期
  60.         Video_time = ite.get('upload_time')

  61.         #视频播放地址
  62.         Video_bofang = ite.get('share_url')

  63.         #视频下载地址
  64.         Video_download = ite.get('video_playurl')

  65.         #视频作者
  66.         The_name = i.get('user').get('name')

  67.         #获取到Url用来下载视频
  68.         try:
  69.             print("当前下载的是{}".format(Video_name))
  70.             downloads(Video_download,path="{}.mp4".format(Video_name))
  71.         except Exception as e:
  72.             print(e)

  73. for page in range(1,10):
  74.     page += page * 10 + 1
  75.     Thje_url(page)
复制代码

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-6 09:24:23 | 显示全部楼层
楼主你好,那个网易云词语云的怎么看不了了
可以分想给我看看吗?
辛苦了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-6 16:32:48 | 显示全部楼层
杜若左 发表于 2020-3-6 09:24
楼主你好,那个网易云词语云的怎么看不了了
可以分想给我看看吗?
辛苦了

我记得有分享,不能看了?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-6 17:05:58 | 显示全部楼层
看不了了 呜呜呜呜~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-6 17:08:19 | 显示全部楼层
可以发我QQ吗?3309701887
麻烦了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 01:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表