验证码完成后如何带入网页
本帖最后由 python羊 于 2020-10-21 12:01 编辑要爬取https://data.gia.edu/RDWB/Captcha.jsp?reportno=2336632340&APIno=1& 的数据。
因为有验证码,所以讲 验证码图片保存后,利用打码平台识别,再传回,但是在传回的时候需要图片的身份ID,
现在我遇到的是,不知道如何 获取 验证码图片的 一个身份ID。就是最下面Query 当中的t后面的字符 。如图:
https://s1.ax1x.com/2020/10/21/B9zD9f.png
查看相关js文件 可以发现
function f() {
e(b.captchaEndpoint + "?get=script-include", {
cache: !0
}).done(function() {
var c = a("#BDC_VCID_" + k).val();
e(b.captchaEndpoint + "?get=init-script-include&c=" + k + "&t=" + c + "&cs=2").done(g)
})
}
function c() {
return a.ajax({
method: "GET",
url: b.captchaEndpoint,
data: {
get: "html",
c: k
}
})
}
对应的就是图上倒数第三个xhr请求
那你需要自己去发get请求 记得如图带参数 然后在返回中可以找到t 利用session使得前后两次请求在一个session
大概流程
get网页 获取验证码
将验证码利用打码平台识别
post验证码 mrcrisis 发表于 2020-10-20 13:23
利用session使得前后两次请求在一个session
大概流程
get网页 获取验证码
我也是这个思路,但是不知道如何获得 验证码图片 的ID。 mrcrisis 发表于 2020-10-20 13:23
利用session使得前后两次请求在一个session
大概流程
get网页 获取验证码
我改成了具体的问题,请问一般这个 数据怎么获得。感谢 做爬虫还是了解一下前端比较好 至少html和js得看看 mrcrisis 发表于 2020-10-21 12:57
做爬虫还是了解一下前端比较好 至少html和js得看看
本来只想做一个简单的爬虫,一开始这个网站也没有验证码,谁知道越来越难。
感谢,感谢。还是需要多学。 原理明白。完全复制代码还是失败了。{:10_266:}谁知道原因
页:
[1]