|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
- import requests
- from lxml import html
- etree = html.etree
- header = {
- "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
- }
- url = 'https://xiaoyuan.zhaopin.com/job/CC407288330J40383568908'
- response = requests.get(url=url,headers=header).text
- print(response)
复制代码
大佬们,这个为什么爬取不到页面源码呀
本帖最后由 isdkz 于 2023-2-6 23:41 编辑
爬到的结果这里可以看到最后面有这么一段 js 代码
function reload(x) {setCookie("acw_sc__v2", x);document.location.reload();}
这里是设置了一个 cookie 然后重载界面,这个 x 是 js 算出来的,你可以想办法执行获取到的 js 代码得到这个x,也可以审计它的js代码并把逻辑在 Python 中复现 (但是我看了一下它那个js是混淆加密了的,除非你精力旺盛有时间,不然就别想了)
最简单的办法还是去浏览器复制,不用复制完全,就复制这个界面需要的 acw_sc__v2,因为这个 Cookie 是这个页面最后设置的一个 Cookie,所以它应该排在 Cookie 的最后面
代码(记得改这个 Cookie,去你的浏览器那里复制,因为这个Cookie的有效期很短):
- import requests
- from lxml import html
- etree = html.etree
- header = {
- "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36",
- 'Cookie': 'acw_sc__v2=63e1167ba5665f0022e4fc72118dfc0e71b871b8' # 要改这里
- }
- url = 'https://xiaoyuan.zhaopin.com/job/CC407288330J40383568908'
- response = requests.get(url=url, headers=header).text
- print(response)
复制代码
|
-
|