python羊 发表于 2020-10-19 22:04:29

验证码完成后如何带入网页

本帖最后由 python羊 于 2020-10-21 12:01 编辑

要爬取https://data.gia.edu/RDWB/Captcha.jsp?reportno=2336632340&APIno=1&   的数据。
因为有验证码,所以讲 验证码图片保存后,利用打码平台识别,再传回,但是在传回的时候需要图片的身份ID,

现在我遇到的是,不知道如何 获取 验证码图片的 一个身份ID。就是最下面Query 当中的t后面的字符   。如图:

mrcrisis 发表于 2020-10-19 22:04:30

https://s1.ax1x.com/2020/10/21/B9zD9f.png
查看相关js文件 可以发现
      function f() {
            e(b.captchaEndpoint + "?get=script-include", {
                cache: !0
            }).done(function() {
                var c = a("#BDC_VCID_" + k).val();
                e(b.captchaEndpoint + "?get=init-script-include&c=" + k + "&t=" + c + "&cs=2").done(g)
            })
      }
      function c() {
            return a.ajax({
                method: "GET",
                url: b.captchaEndpoint,
                data: {
                  get: "html",
                  c: k
                }
            })
      }
对应的就是图上倒数第三个xhr请求
那你需要自己去发get请求 记得如图带参数 然后在返回中可以找到t

mrcrisis 发表于 2020-10-20 13:23:06

利用session使得前后两次请求在一个session
大概流程
get网页 获取验证码
将验证码利用打码平台识别
post验证码

python羊 发表于 2020-10-21 11:36:58

mrcrisis 发表于 2020-10-20 13:23
利用session使得前后两次请求在一个session
大概流程
get网页 获取验证码


我也是这个思路,但是不知道如何获得 验证码图片 的ID。

python羊 发表于 2020-10-21 11:41:46

mrcrisis 发表于 2020-10-20 13:23
利用session使得前后两次请求在一个session
大概流程
get网页 获取验证码


我改成了具体的问题,请问一般这个 数据怎么获得。感谢

mrcrisis 发表于 2020-10-21 12:57:53

做爬虫还是了解一下前端比较好 至少html和js得看看

python羊 发表于 2020-10-21 14:31:13

mrcrisis 发表于 2020-10-21 12:57
做爬虫还是了解一下前端比较好 至少html和js得看看

本来只想做一个简单的爬虫,一开始这个网站也没有验证码,谁知道越来越难。
感谢,感谢。还是需要多学。

tw8457 发表于 2022-1-20 23:10:46

原理明白。完全复制代码还是失败了。{:10_266:}谁知道原因
页: [1]
查看完整版本: 验证码完成后如何带入网页