鱼C论坛

 找回密码
 立即注册
查看: 965|回复: 4

python爬虫遇到js动态页面

[复制链接]
发表于 2020-4-26 23:09:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
准备写个小爬虫一键填报公司报表,但是很不幸发现公司oa页面是js动态渲染的。
现在遇到这么一个问题,点击某个图标后,会打开一个新页面,F12分析了一下,发现后台JS生成了一个新的COOKIE,只有携带这个COOKIE值才能访问那个新页面,我在js文件中的document.cookie下断点,再点击跳转图标,结果发现压根没断下来,就无法知晓生成cookie的那段代码传入了什么参数。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-26 23:17:59 | 显示全部楼层
...有点巧哈,我今天也是因为js碰壁了,想爬迅雷下载链接想练习下,结果就因为链接被js动态渲染了,还不会提取放弃了...
我百度了下好像蛮麻烦的,还要判断JS的具体是什么情况 ,记得好像用个 Selenium库可以看动态渲染的内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-26 23:26:06 | 显示全部楼层
Twilight6 发表于 2020-4-26 23:17
...有点巧哈,我今天也是因为js碰壁了,想爬迅雷下载链接想练习下,结果就因为链接被js动态渲染了,还不会 ...

selenium倒是会,曾经写了个爬虫项目,对他效率真的无力吐槽。还是得找出js中的关键代码用execjs模块执行效率最高、可惜我这个的js混淆的太厉害,行数也多,2w+,反复套娃,我真的是看不出来了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-26 23:38:40 | 显示全部楼层
fiberstudio 发表于 2020-4-26 23:26
selenium倒是会,曾经写了个爬虫项目,对他效率真的无力吐槽。还是得找出js中的关键代码用execjs模块执行 ...

观摩大佬了...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-27 07:47:09 From FishC Mobile | 显示全部楼层
你不放网址,不说想提取的内容,咋帮忙?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-26 23:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表