如何跳过验证码
在这个网页爬数据的时候,需要验证码,请问遇到验证码应该如何处理。不输入验证码 直接爬取网页中的‘VS’。
代码(鱼友:疾风怪盗 提供):
import re,time,json
from selenium import webdriver
driver=webdriver.Chrome()
url = 'https://data.gia.edu/RDWB/Captcha.jsp?reportno=6352100549&cc=CN&APIno=1&'
driver.get(url)
time.sleep(10)
html_str=driver.page_source
print(html_str)
pattren="event.source.postMessage\(\'(.*?)\',event.origin"
data=re.findall(pattren,html_str)
print(data)
data=json.loads(data)
print(data['CLARITY_GRADE']) {:10_312:}你咋又开一贴。。。。。。
验证码
要么像我用的selenium,自己输入
要么用图像识别技术,先获取验证码图片,识别出数字字母,再自动输入,但是这个要求比较高,百度、阿里应该都有这份方面的接口
好像还有个叫云打码的平台,是专门搞验证码的,收费的,不过不太贵
其他办法就不知道了 {:10_256:}{:10_256:} 云打码吧,一次1-几分钱,图像识别不好用,一般都识别不了
页:
[1]