wiselin 发表于 2021-12-8 11:38:59

请问这种网站数据应该怎么抓取?

目标:https://gzclass.gztv.com/gksubjecpc/index.html
年级、课例那些通过爬虫都爬不出来

Stubborn 发表于 2021-12-8 11:53:06

本帖最后由 Stubborn 于 2021-12-8 12:19 编辑

赤裸裸的数据在哪里呀,视频吗?


URL1 = https://gzclass.gztv.com/hcEdu/pc/getGradeData?topColumnId=1029


URL2 = https://gzclass.gztv.com/hcEdu/pc/getLessons?courseId=3a616f2f5345ac43c9f0a303a0792528


wiselin 发表于 2021-12-8 12:28:13

Stubborn 发表于 2021-12-8 11:53
赤裸裸的数据在哪里呀,视频吗?

对,就是这些基本信息,请问这2个url是怎么提取出来的?

Stubborn 发表于 2021-12-8 12:31:28

wiselin 发表于 2021-12-8 12:28
对,就是这些基本信息,请问这2个url是怎么提取出来的?

爬虫第一部
确认所需要的信息是否存在网页源码里面,明显你这个没有在。那么肯定是通过其他方式加载的
抓包,多练



wiselin 发表于 2021-12-8 12:37:13

Stubborn 发表于 2021-12-8 12:31
爬虫第一部
确认所需要的信息是否存在网页源码里面,明显你这个没有在。那么肯定是通过其他方式加载的 ...

搞懂了,我实在太小白了{:5_104:}

Stubborn 发表于 2021-12-8 12:43:47

wiselin 发表于 2021-12-8 12:37
搞懂了,我实在太小白了

难搞的是参数加密,要去抠js代码,搞人心态的验证码,慢慢都会遇到的
页: [1]
查看完整版本: 请问这种网站数据应该怎么抓取?