马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 非凡 于 2021-11-15 18:13 编辑
在试图爬取抖音的短视频时发先一个这样的情况:
首先:
抖音的视频资源是动态加载的,视频资源的包是
这本也不算什么,根据包的url爬取资源就是了。
但是:
这视频资源的几个包没由什么明显的规律。下面是同一网页下的4个视频资源包的url
url4 = 'https://www.douyin.com/aweme/v1/web/aweme/post/?device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id=MS4wLjABAAAAF5ZfVgdRbJ3OPGJPMFHnDp2sdJaemZo3Aw6piEtkdOA&max_cursor=1554967168000&count=10&publish_video_strategy_type=2&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1920&screen_height=1080&browser_language=zh-CN&browser_platform=Win32&browser_name=Mozilla&browser_version=5.0+(Windows+NT+10.0;+Win64;+x64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/95.0.4638.69+Safari/537.36+Edg/95.0.1020.53&browser_online=true&msToken=67fKhMC_DOBVizOJ_90hL1U5YOv-BFiS9N3L6zvEkLoG1l3klprxDvLIqdXqvvVWaVULmBnoGKIKkT9sM8oD7uz5W7uia2eeCV0EkQSZpIzr0CKgMbq3G0tEpA==&X-Bogus=DFSzsdVLzaJANH4lS7-PXc54Da62&_signature=_02B4Z6wo00001LPNYPgAAIDBX6bM3HmW-ySzyWRAAE1m87DgKa7sy5DoD8351IMgesfFtDtbv8SwWqrao3uL3V.9wiCZEGoQlvqppjX2j4kkxNEQXZYclL2pBvN5-MIZMQ9eMD237Ap2xB.xba'
url3 = 'https://www.douyin.com/aweme/v1/web/aweme/post/?device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id=MS4wLjABAAAAF5ZfVgdRbJ3OPGJPMFHnDp2sdJaemZo3Aw6piEtkdOA&max_cursor=1555830333000&count=10&publish_video_strategy_type=2&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1920&screen_height=1080&browser_language=zh-CN&browser_platform=Win32&browser_name=Mozilla&browser_version=5.0+(Windows+NT+10.0;+Win64;+x64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/95.0.4638.69+Safari/537.36+Edg/95.0.1020.53&browser_online=true&msToken=67fKhMC_DOBVizOJ_90hL1U5YOv-BFiS9N3L6zvEkLoG1l3klprxDvLIqdXqvvVWaVULmBnoGKIKkT9sM8oD7uz5W7uia2eeCV0EkQSZpIzr0CKgMbq3G0tEpA==&X-Bogus=DFSzsdVLtW0ANH4lS7-PIQ54Da6P&_signature=_02B4Z6wo000019EoY5gAAIDCPUPPv39lPefRLGcAAJXh87DgKa7sy5DoD8351IMgesfFtDtbv8SwWqrao3uL3V.9wiCZEGoQlvqppjX2j4kkxNEQXZYclL2pBvN5-MIZMQ9eMD237Ap2xB.x19'
url2 = 'https://www.douyin.com/aweme/v1/web/aweme/post/?device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id=MS4wLjABAAAAF5ZfVgdRbJ3OPGJPMFHnDp2sdJaemZo3Aw6piEtkdOA&max_cursor=1556706031000&count=10&publish_video_strategy_type=2&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1920&screen_height=1080&browser_language=zh-CN&browser_platform=Win32&browser_name=Mozilla&browser_version=5.0+(Windows+NT+10.0;+Win64;+x64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/95.0.4638.69+Safari/537.36+Edg/95.0.1020.53&browser_online=true&msToken=twRSlOjltAT2zPZmbZdxdb-bR5WLWpsD84ByDVPKc0IhiLG44D4G7NN1Gc-eDtfLQq3xUyctzKi7oBH-NUPvDw6sE7TIlh5JWUXZZuN4NPKujwOYRNoPzh-Bj1I=&X-Bogus=DFSzsdVOiXhANxaNS7-FtO54Da6C&_signature=_02B4Z6wo000018-VBGQAAIDCI.6oQ9csIRvPkQDAAJKAw5mHbWKMvbXIFTGDSgCKx.nJAti3X50MjcqmbXV6YojDEXYtMxwbH5ohF38cJCELD4mMFVqaRA2cShSkkYtJR6sarvfDjFEHu8D46f'
url1 = 'https://www.douyin.com/aweme/v1/web/aweme/post/?device_platform=webapp&aid=6383&channel=channel_pc_web&sec_user_id=MS4wLjABAAAAF5ZfVgdRbJ3OPGJPMFHnDp2sdJaemZo3Aw6piEtkdOA&max_cursor=1583639919000&count=10&publish_video_strategy_type=2&version_code=170400&version_name=17.4.0&cookie_enabled=true&screen_width=1920&screen_height=1080&browser_language=zh-CN&browser_platform=Win32&browser_name=Mozilla&browser_version=5.0+(Windows+NT+10.0;+Win64;+x64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/95.0.4638.69+Safari/537.36+Edg/95.0.1020.53&browser_online=true&msToken=twRSlOjltAT2zPZmbZdxdb-bR5WLWpsD84ByDVPKc0IhiLG44D4G7NN1Gc-eDtfLQq3xUyctzKi7oBH-NUPvDw6sE7TIlh5JWUXZZuN4NPKujwOYRNoPzh-Bj1I=&X-Bogus=DFSzsdVO2LhANxaNS7-Ftc54Da18&_signature=_02B4Z6wo000019w8H3gAAIDCMFezXSgNUnvcOBvAAJamkf9fCtc8vB4XSkwEyPolT2cZEySf2qypoNwYnMzrWnZ.xesnKj5rPLyEywsyS4sjVvoiEt.iQftPIbMdMmsUCGL4yQLPPrb2ke.N55'
url不同的地方max_cursor=和是_signature=_
这是什么反爬机制?
更麻烦的是:
每刷新重加载一次页面,就算是加载的相同的视频资源,但他这些资源包的url都是不一样的。我这例子里视频是漫威影业官方账号的短视频。链接是https://www.douyin.com/user/MS4w ... dJaemZo3Aw6piEtkdOA
这样一来,我就算把视频资源包的url复制下来,用在爬虫代码上也是爬不到任何资源的。
这种反爬机制是什么?该怎么应对?
|