爬虫遇到图形验证码
如题爬虫的时候,有图形验证码,request之后,原来的页面就会被刷新,即使获取到了所需的验证码的地址,也会被刷新成旧的验证码,即验证码会更新
有没有做过类似的大佬来唠唠,看看怎么解决
感谢 这种动态验证码一般用selenium,截图再识别。识别的话,
第一个方法是对图片进行处理然后识别,像去噪、二值化等(比较常用,多用于比较简单的验证码(数字/字母),越复杂识别正确率越低),
第二个方法就是利用深度学习进行训练(比较麻烦,需要大量验证码图片,训练越多,识别正确率越高),
第三个方法就是利用打码平台识别(需要花钱,识别正确率较高)。
第四个方法就是人工识别(也就是自己输验证码,当然,这比较傻)
所以对于图形验证码,看你实际情况去用什么方法,想要成功率高,要么花时间去训练,要么用打码平台。不想花钱,又没那个时间,那就放弃吧。 YunGuo 发表于 2021-3-23 00:59
这种动态验证码一般用selenium,截图再识别。识别的话,
第一个方法是对图片进行处理然后识别,像去噪、二 ...
主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧
然后我假设识别成功了,我需要再次request去登录,但是二次request的话,是不是就会出现验证码被刷新的问题
那么我之前识别出来的验证码就毫无用处了,因为已经被刷新了
有没有什么办法能在 request 之后,还保持那个会话,即我 request 登录的时候能沿用之前的会话,即验证码不发生改变 本帖最后由 YunGuo 于 2021-3-23 02:16 编辑
Daniel_Zhang 发表于 2021-3-23 01:20
主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧
然后我假设识别成功了 ...
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大小,截取网页全图,从全图中截取验证码,识别验证码,输入验证码,提交登录,登录成功就获取cookie,失败就重复之前的步骤。
得到登录后的cookie,后续操作就可以用requests携带cookie,用session保留会话(或者全程用selenium)。全程用requests是没有办法的,就像你说的,requests请求一次页面,验证码就刷新了。
整个过程的难点不在于验证码刷新问题,而在于验证码识别问题。 YunGuo 发表于 2021-3-23 02:01
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大 ...
嗯嗯,我先试一下
最佳会给的,稍等喔 YunGuo 发表于 2021-3-23 02:01
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大 ...
太感谢了,总算弄好了,用的就是 selenium
我这个网页特别坑,验证码图片是直接base64的格式,得先截取下来转换成图片并保存
然后使用 pytesseract 模块识别 50 次,每输入一次识别的验证码,就提交一次
让 selenium 自动填充验证码并点击确认
验证码不正确就重新识别下一个验证码,验证码符合了就停止识别
而且我这个网页很奇怪,selenium模拟的时候,第一次提交,不论验证码是否正确,必定会 session expire,特别狗
只能先随便敲点,然后用 clear() 去清空输入
总之,感谢大佬指点{:10_275:}
只能先随便 验证码识别的功能源自于知乎的一个大佬,比较基础的一个验证码识别模块,不带训练学习{:10_254:}
https://zhuanlan.zhihu.com/p/60711252
页:
[1]