请问这种网站数据应该怎么抓取？,Python交流,编程语言专区,鱼C论坛

wiselin 发表于 2021-12-8 11:38:59

请问这种网站数据应该怎么抓取？

目标：https://gzclass.gztv.com/gksubjecpc/index.html
年级、课例那些通过爬虫都爬不出来

Stubborn 发表于 2021-12-8 11:53:06

本帖最后由 Stubborn 于 2021-12-8 12:19 编辑

赤裸裸的数据在哪里呀，视频吗？

URL1 = https://gzclass.gztv.com/hcEdu/pc/getGradeData?topColumnId=1029

URL2 = https://gzclass.gztv.com/hcEdu/pc/getLessons?courseId=3a616f2f5345ac43c9f0a303a0792528

wiselin 发表于 2021-12-8 12:28:13

Stubborn 发表于 2021-12-8 11:53
赤裸裸的数据在哪里呀，视频吗？

对，就是这些基本信息，请问这2个url是怎么提取出来的？

Stubborn 发表于 2021-12-8 12:31:28

wiselin 发表于 2021-12-8 12:28
对，就是这些基本信息，请问这2个url是怎么提取出来的？

爬虫第一部
确认所需要的信息是否存在网页源码里面，明显你这个没有在。那么肯定是通过其他方式加载的
抓包,多练

wiselin 发表于 2021-12-8 12:37:13

Stubborn 发表于 2021-12-8 12:31
爬虫第一部
确认所需要的信息是否存在网页源码里面，明显你这个没有在。那么肯定是通过其他方式加载的 ...

搞懂了，我实在太小白了{:5_104:}

Stubborn 发表于 2021-12-8 12:43:47

wiselin 发表于 2021-12-8 12:37
搞懂了，我实在太小白了

难搞的是参数加密，要去抠js代码，搞人心态的验证码，慢慢都会遇到的

页: [1]

鱼C论坛's Archiver

请问这种网站数据应该怎么抓取？