请问这种网站数据应该怎么抓取?
目标:https://gzclass.gztv.com/gksubjecpc/index.html年级、课例那些通过爬虫都爬不出来
本帖最后由 Stubborn 于 2021-12-8 12:19 编辑
赤裸裸的数据在哪里呀,视频吗?
URL1 = https://gzclass.gztv.com/hcEdu/pc/getGradeData?topColumnId=1029
URL2 = https://gzclass.gztv.com/hcEdu/pc/getLessons?courseId=3a616f2f5345ac43c9f0a303a0792528
Stubborn 发表于 2021-12-8 11:53
赤裸裸的数据在哪里呀,视频吗?
对,就是这些基本信息,请问这2个url是怎么提取出来的? wiselin 发表于 2021-12-8 12:28
对,就是这些基本信息,请问这2个url是怎么提取出来的?
爬虫第一部
确认所需要的信息是否存在网页源码里面,明显你这个没有在。那么肯定是通过其他方式加载的
抓包,多练
Stubborn 发表于 2021-12-8 12:31
爬虫第一部
确认所需要的信息是否存在网页源码里面,明显你这个没有在。那么肯定是通过其他方式加载的 ...
搞懂了,我实在太小白了{:5_104:} wiselin 发表于 2021-12-8 12:37
搞懂了,我实在太小白了
难搞的是参数加密,要去抠js代码,搞人心态的验证码,慢慢都会遇到的
页:
[1]