验证码完成后如何带入网页,Python交流,编程语言专区,鱼C论坛

python羊 发表于 2020-10-19 22:04:29

验证码完成后如何带入网页

本帖最后由 python羊于 2020-10-21 12:01 编辑

要爬取https://data.gia.edu/RDWB/Captcha.jsp?reportno=2336632340&APIno=1& 的数据。
因为有验证码，所以讲验证码图片保存后，利用打码平台识别，再传回，但是在传回的时候需要图片的身份ID，

现在我遇到的是，不知道如何获取验证码图片的一个身份ID。就是最下面Query 当中的t后面的字符。如图：

mrcrisis 发表于 2020-10-19 22:04:30

https://s1.ax1x.com/2020/10/21/B9zD9f.png
查看相关js文件可以发现
   function f() {
         e(b.captchaEndpoint + "?get=script-include", {
            cache: !0
         }).done(function() {
            var c = a("#BDC_VCID_" + k).val();
            e(b.captchaEndpoint + "?get=init-script-include&c=" + k + "&t=" + c + "&cs=2").done(g)
         })
   }
   function c() {
         return a.ajax({
            method: "GET",
            url: b.captchaEndpoint,
            data: {
               get: "html",
               c: k
            }
         })
   }
对应的就是图上倒数第三个xhr请求
那你需要自己去发get请求记得如图带参数然后在返回中可以找到t

mrcrisis 发表于 2020-10-20 13:23:06

利用session使得前后两次请求在一个session
大概流程
get网页获取验证码
将验证码利用打码平台识别
post验证码

python羊 发表于 2020-10-21 11:36:58

mrcrisis 发表于 2020-10-20 13:23
利用session使得前后两次请求在一个session
大概流程
get网页获取验证码

我也是这个思路，但是不知道如何获得验证码图片的ID。

python羊 发表于 2020-10-21 11:41:46

mrcrisis 发表于 2020-10-20 13:23
利用session使得前后两次请求在一个session
大概流程
get网页获取验证码

我改成了具体的问题，请问一般这个数据怎么获得。感谢

mrcrisis 发表于 2020-10-21 12:57:53

做爬虫还是了解一下前端比较好至少html和js得看看

python羊 发表于 2020-10-21 14:31:13

mrcrisis 发表于 2020-10-21 12:57
做爬虫还是了解一下前端比较好至少html和js得看看

本来只想做一个简单的爬虫，一开始这个网站也没有验证码，谁知道越来越难。
感谢，感谢。还是需要多学。

tw8457 发表于 2022-1-20 23:10:46

原理明白。完全复制代码还是失败了。{:10_266:}谁知道原因

页: [1]

鱼C论坛's Archiver

验证码完成后如何带入网页