python羊 发表于 2020-9-21 22:52:54

如何跳过验证码

在这个网页爬数据的时候,需要验证码,请问遇到验证码应该如何处理。
不输入验证码 直接爬取网页中的‘VS’。

代码(鱼友:疾风怪盗 提供):

import re,time,json
from selenium import webdriver
driver=webdriver.Chrome()

url = 'https://data.gia.edu/RDWB/Captcha.jsp?reportno=6352100549&cc=CN&APIno=1&'
driver.get(url)
time.sleep(10)
html_str=driver.page_source
print(html_str)
pattren="event.source.postMessage\(\'(.*?)\',event.origin"
data=re.findall(pattren,html_str)
print(data)
data=json.loads(data)
print(data['CLARITY_GRADE'])

疾风怪盗 发表于 2020-9-21 22:52:55

{:10_312:}你咋又开一贴。。。。。。
验证码
要么像我用的selenium,自己输入
要么用图像识别技术,先获取验证码图片,识别出数字字母,再自动输入,但是这个要求比较高,百度、阿里应该都有这份方面的接口
好像还有个叫云打码的平台,是专门搞验证码的,收费的,不过不太贵
其他办法就不知道了

wzdr 发表于 2020-9-22 10:34:33

{:10_256:}{:10_256:}

HCF 发表于 2020-9-22 16:34:07

云打码吧,一次1-几分钱,图像识别不好用,一般都识别不了
页: [1]
查看完整版本: 如何跳过验证码