鱼C论坛

 找回密码
 立即注册
查看: 2084|回复: 2

爬虫:提取网页里的内容

[复制链接]
发表于 2022-7-20 18:23:17 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
可以帮我看看梨视频上的这个视频怎样提取到它的下载链接吗,我用几种方法试了一下,提取的内容都是空的,
大家可以帮我看看吗,网页看着挺简单的,但我就是没搞出来
谢谢了,能用多种提取方式更好了,我看看哪里错了
下面的代码是用正则提取的,也不知道哪错了

import requests
import re
url= "https://www.pearvideo.com/video_1767755"
headers = {
    "User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36",#防盗链:溯源,处理反扒,referer
    "Referer": "https://www.pearvideo.com/video_1752210"
}resp = requests.get(url,headers = headers)
scrUrl = re.compile(r'<div class="img.*?<video.*?scr=(?P<newurl>.*?)',re.S)
result = scrUrl.finditer(resp.text)

for it in result:
    print(it.group("newurl"))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-7-22 22:31:08 | 显示全部楼层
在AJAX里:
#!/usr/bin/env python3

import requests


def main():
    url = 'https://www.pearvideo.com/videoStatus.jsp'
    headers = {'user-agent': 'firefox',
               'Referer': 'https://www.pearvideo.com/video_1767755',
               'X-Requested-With': 'XMLHttpRequest'}
    params = {'contId': '1767755',
              'mrd': '0.3777282613482572'}
    r = requests.get(url, headers=headers, params=params)
    print(r.text)
    print('=' * 100)
    print(r.json()['videoInfo']['videos']['srcUrl'])


if __name__ == '__main__':
    main()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-7-22 22:33:05 | 显示全部楼层
2022-07-22 22_31_43-.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-28 12:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表