柠檬冲冲冲 发表于 2022-7-20 18:23:17

爬虫:提取网页里的内容

可以帮我看看梨视频上的这个视频怎样提取到它的下载链接吗,我用几种方法试了一下,提取的内容都是空的,
大家可以帮我看看吗,网页看着挺简单的,但我就是没搞出来
谢谢了,能用多种提取方式更好了,我看看哪里错了
下面的代码是用正则提取的,也不知道哪错了


import requests
import re
url= "https://www.pearvideo.com/video_1767755"
headers = {
    "User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36",#防盗链:溯源,处理反扒,referer
    "Referer": "https://www.pearvideo.com/video_1752210"
}resp = requests.get(url,headers = headers)
scrUrl = re.compile(r'<div class="img.*?<video.*?scr=(?P<newurl>.*?)',re.S)
result = scrUrl.finditer(resp.text)

for it in result:
    print(it.group("newurl"))

suchocolate 发表于 2022-7-22 22:31:08

在AJAX里:
#!/usr/bin/env python3

import requests


def main():
    url = 'https://www.pearvideo.com/videoStatus.jsp'
    headers = {'user-agent': 'firefox',
               'Referer': 'https://www.pearvideo.com/video_1767755',
               'X-Requested-With': 'XMLHttpRequest'}
    params = {'contId': '1767755',
            'mrd': '0.3777282613482572'}
    r = requests.get(url, headers=headers, params=params)
    print(r.text)
    print('=' * 100)
    print(r.json()['videoInfo']['videos']['srcUrl'])


if __name__ == '__main__':
    main()

suchocolate 发表于 2022-7-22 22:33:05

页: [1]
查看完整版本: 爬虫:提取网页里的内容