鱼C论坛

 找回密码
 立即注册
查看: 1759|回复: 6

[已解决]python爬取包含ajax的网页

[复制链接]
发表于 2020-9-14 16:57:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 CH10 于 2020-9-14 17:02 编辑

不知道各位老哥在爬虫的时候有没有遇到这样一个问题
在网页里面有一部分内容是通过javascript发起ajax请求获取的,然后在通过js把请求到的内容以列表的形式展示出来
在爬取这样的网页的时候,我使用res=requests.get(url)进行爬取
content = res.content.decode('utf-8'),这里content获取的内容,有包含ajax请求的js代码,但这样爬取网页的js没有执行,就不能爬取到js执行之后最终的网页
所以我想请教各位老哥怎么爬取网页的时候执行网页内的js,爬取最终获取到数据的网页,最好老哥们能自己弄个例子代码啥的给小弟参考
最佳答案
2020-9-14 17:59:37
1、找出json网址的规律,然后手动发一个请求
2、selenum模拟浏览器
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-9-14 17:02:45 | 显示全部楼层
f12 录制network 找api
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-14 17:03:56 | 显示全部楼层
你可以给个网址看看

基本上这三种可以解决大部分问题吧
1、静态网页;2、找到json数据网址;3、Selenium
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-14 17:19:54 | 显示全部楼层
围观学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-14 17:55:04 | 显示全部楼层
疾风怪盗 发表于 2020-9-14 17:03
你可以给个网址看看

基本上这三种可以解决大部分问题吧

http://data.eastmoney.com/
content = res.content.decode('utf-8')要改为gbk,大佬怎么爬ajax部分的数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-14 17:59:37 | 显示全部楼层    本楼为最佳答案   
1、找出json网址的规律,然后手动发一个请求
2、selenum模拟浏览器
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-14 18:02:18 | 显示全部楼层
最好发个网址出来,大家探讨探讨
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-18 18:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表