CH10 发表于 2020-9-14 16:57:33

python爬取包含ajax的网页

本帖最后由 CH10 于 2020-9-14 17:02 编辑

不知道各位老哥在爬虫的时候有没有遇到这样一个问题
在网页里面有一部分内容是通过javascript发起ajax请求获取的,然后在通过js把请求到的内容以列表的形式展示出来
在爬取这样的网页的时候,我使用res=requests.get(url)进行爬取
content = res.content.decode('utf-8'),这里content获取的内容,有包含ajax请求的js代码,但这样爬取网页的js没有执行,就不能爬取到js执行之后最终的网页
所以我想请教各位老哥怎么爬取网页的时候执行网页内的js,爬取最终获取到数据的网页,最好老哥们能自己弄个例子代码啥的给小弟参考

kogawananari 发表于 2020-9-14 17:02:45

f12 录制network 找api

疾风怪盗 发表于 2020-9-14 17:03:56

你可以给个网址看看

基本上这三种可以解决大部分问题吧
1、静态网页;2、找到json数据网址;3、Selenium

jackcoden 发表于 2020-9-14 17:19:54

围观学习{:10_256:}

CH10 发表于 2020-9-14 17:55:04

疾风怪盗 发表于 2020-9-14 17:03
你可以给个网址看看

基本上这三种可以解决大部分问题吧


http://data.eastmoney.com/
content = res.content.decode('utf-8')要改为gbk,大佬怎么爬ajax部分的数据

lhgzbxhz 发表于 2020-9-14 17:59:37

1、找出json网址的规律,然后手动发一个请求
2、selenum模拟浏览器

挥舞乾坤 发表于 2020-9-14 18:02:18

最好发个网址出来,大家探讨探讨
页: [1]
查看完整版本: python爬取包含ajax的网页