fiberstudio 发表于 2020-4-26 23:09:45

python爬虫遇到js动态页面

准备写个小爬虫一键填报公司报表,但是很不幸发现公司oa页面是js动态渲染的。
现在遇到这么一个问题,点击某个图标后,会打开一个新页面,F12分析了一下,发现后台JS生成了一个新的COOKIE,只有携带这个COOKIE值才能访问那个新页面,我在js文件中的document.cookie下断点,再点击跳转图标,结果发现压根没断下来,就无法知晓生成cookie的那段代码传入了什么参数。

Twilight6 发表于 2020-4-26 23:17:59

...有点巧哈,我今天也是因为js碰壁了,想爬迅雷下载链接想练习下,结果就因为链接被js动态渲染了,还不会提取放弃了...
我百度了下好像蛮麻烦的,还要判断JS的具体是什么情况 ,记得好像用个 Selenium库可以看动态渲染的内容

fiberstudio 发表于 2020-4-26 23:26:06

Twilight6 发表于 2020-4-26 23:17
...有点巧哈,我今天也是因为js碰壁了,想爬迅雷下载链接想练习下,结果就因为链接被js动态渲染了,还不会 ...

selenium倒是会,曾经写了个爬虫项目,对他效率真的无力吐槽。还是得找出js中的关键代码用execjs模块执行效率最高、可惜我这个的js混淆的太厉害,行数也多,2w+,反复套娃,我真的是看不出来了

Twilight6 发表于 2020-4-26 23:38:40

fiberstudio 发表于 2020-4-26 23:26
selenium倒是会,曾经写了个爬虫项目,对他效率真的无力吐槽。还是得找出js中的关键代码用execjs模块执行 ...

观摩大佬了...{:10_254:}

wp231957 发表于 2020-4-27 07:47:09

你不放网址,不说想提取的内容,咋帮忙?
页: [1]
查看完整版本: python爬虫遇到js动态页面