python爬虫遇到js动态页面,Python交流,编程语言专区,鱼C论坛

fiberstudio 发表于 2020-4-26 23:09:45

python爬虫遇到js动态页面

准备写个小爬虫一键填报公司报表，但是很不幸发现公司oa页面是js动态渲染的。
现在遇到这么一个问题，点击某个图标后，会打开一个新页面，F12分析了一下，发现后台JS生成了一个新的COOKIE，只有携带这个COOKIE值才能访问那个新页面，我在js文件中的document.cookie下断点，再点击跳转图标，结果发现压根没断下来，就无法知晓生成cookie的那段代码传入了什么参数。

Twilight6 发表于 2020-4-26 23:17:59

...有点巧哈，我今天也是因为js碰壁了，想爬迅雷下载链接想练习下，结果就因为链接被js动态渲染了，还不会提取放弃了...
我百度了下好像蛮麻烦的，还要判断JS的具体是什么情况，记得好像用个 Selenium库可以看动态渲染的内容

fiberstudio 发表于 2020-4-26 23:26:06

Twilight6 发表于 2020-4-26 23:17
...有点巧哈，我今天也是因为js碰壁了，想爬迅雷下载链接想练习下，结果就因为链接被js动态渲染了，还不会 ...

selenium倒是会，曾经写了个爬虫项目，对他效率真的无力吐槽。还是得找出js中的关键代码用execjs模块执行效率最高、可惜我这个的js混淆的太厉害，行数也多，2w+,反复套娃，我真的是看不出来了

Twilight6 发表于 2020-4-26 23:38:40

fiberstudio 发表于 2020-4-26 23:26
selenium倒是会，曾经写了个爬虫项目，对他效率真的无力吐槽。还是得找出js中的关键代码用execjs模块执行 ...

观摩大佬了...{:10_254:}

wp231957 发表于 2020-4-27 07:47:09

你不放网址，不说想提取的内容，咋帮忙？

页: [1]

鱼C论坛's Archiver

python爬虫遇到js动态页面