鱼C论坛

 找回密码
 立即注册
查看: 2505|回复: 2

爬虫:提取网页里的内容

[复制链接]
发表于 2022-7-20 18:23:17 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
可以帮我看看梨视频上的这个视频怎样提取到它的下载链接吗,我用几种方法试了一下,提取的内容都是空的,
大家可以帮我看看吗,网页看着挺简单的,但我就是没搞出来
谢谢了,能用多种提取方式更好了,我看看哪里错了
下面的代码是用正则提取的,也不知道哪错了


  1. import requests
  2. import re
  3. url= "https://www.pearvideo.com/video_1767755"
  4. headers = {
  5.     "User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36",#防盗链:溯源,处理反扒,referer
  6.     "Referer": "https://www.pearvideo.com/video_1752210"
  7. }resp = requests.get(url,headers = headers)
  8. scrUrl = re.compile(r'<div class="img.*?<video.*?scr=(?P<newurl>.*?)',re.S)
  9. result = scrUrl.finditer(resp.text)

  10. for it in result:
  11.     print(it.group("newurl"))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-7-22 22:31:08 | 显示全部楼层
在AJAX里:
  1. #!/usr/bin/env python3

  2. import requests


  3. def main():
  4.     url = 'https://www.pearvideo.com/videoStatus.jsp'
  5.     headers = {'user-agent': 'firefox',
  6.                'Referer': 'https://www.pearvideo.com/video_1767755',
  7.                'X-Requested-With': 'XMLHttpRequest'}
  8.     params = {'contId': '1767755',
  9.               'mrd': '0.3777282613482572'}
  10.     r = requests.get(url, headers=headers, params=params)
  11.     print(r.text)
  12.     print('=' * 100)
  13.     print(r.json()['videoInfo']['videos']['srcUrl'])


  14. if __name__ == '__main__':
  15.     main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-7-22 22:33:05 | 显示全部楼层
2022-07-22 22_31_43-.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-27 18:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表