Daniel_Zhang 发表于 2021-3-22 18:39:22

爬虫遇到图形验证码

如题

爬虫的时候,有图形验证码,request之后,原来的页面就会被刷新,即使获取到了所需的验证码的地址,也会被刷新成旧的验证码,即验证码会更新

有没有做过类似的大佬来唠唠,看看怎么解决

感谢

YunGuo 发表于 2021-3-23 00:59:39

这种动态验证码一般用selenium,截图再识别。识别的话,
第一个方法是对图片进行处理然后识别,像去噪、二值化等(比较常用,多用于比较简单的验证码(数字/字母),越复杂识别正确率越低),
第二个方法就是利用深度学习进行训练(比较麻烦,需要大量验证码图片,训练越多,识别正确率越高),
第三个方法就是利用打码平台识别(需要花钱,识别正确率较高)。
第四个方法就是人工识别(也就是自己输验证码,当然,这比较傻)
所以对于图形验证码,看你实际情况去用什么方法,想要成功率高,要么花时间去训练,要么用打码平台。不想花钱,又没那个时间,那就放弃吧。

Daniel_Zhang 发表于 2021-3-23 01:20:09

YunGuo 发表于 2021-3-23 00:59
这种动态验证码一般用selenium,截图再识别。识别的话,
第一个方法是对图片进行处理然后识别,像去噪、二 ...

主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧

然后我假设识别成功了,我需要再次request去登录,但是二次request的话,是不是就会出现验证码被刷新的问题

那么我之前识别出来的验证码就毫无用处了,因为已经被刷新了

有没有什么办法能在 request 之后,还保持那个会话,即我 request 登录的时候能沿用之前的会话,即验证码不发生改变

YunGuo 发表于 2021-3-23 02:01:27

本帖最后由 YunGuo 于 2021-3-23 02:16 编辑

Daniel_Zhang 发表于 2021-3-23 01:20
主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧

然后我假设识别成功了 ...

用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大小,截取网页全图,从全图中截取验证码,识别验证码,输入验证码,提交登录,登录成功就获取cookie,失败就重复之前的步骤。
得到登录后的cookie,后续操作就可以用requests携带cookie,用session保留会话(或者全程用selenium)。全程用requests是没有办法的,就像你说的,requests请求一次页面,验证码就刷新了。
整个过程的难点不在于验证码刷新问题,而在于验证码识别问题。

Daniel_Zhang 发表于 2021-3-23 02:16:15

YunGuo 发表于 2021-3-23 02:01
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大 ...

嗯嗯,我先试一下

最佳会给的,稍等喔

Daniel_Zhang 发表于 2021-3-23 05:28:55

YunGuo 发表于 2021-3-23 02:01
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大 ...

太感谢了,总算弄好了,用的就是 selenium

我这个网页特别坑,验证码图片是直接base64的格式,得先截取下来转换成图片并保存

然后使用 pytesseract 模块识别 50 次,每输入一次识别的验证码,就提交一次

让 selenium 自动填充验证码并点击确认

验证码不正确就重新识别下一个验证码,验证码符合了就停止识别

而且我这个网页很奇怪,selenium模拟的时候,第一次提交,不论验证码是否正确,必定会 session expire,特别狗

只能先随便敲点,然后用 clear() 去清空输入

总之,感谢大佬指点{:10_275:}

只能先随便

Daniel_Zhang 发表于 2021-3-23 05:32:08

验证码识别的功能源自于知乎的一个大佬,比较基础的一个验证码识别模块,不带训练学习{:10_254:}

https://zhuanlan.zhihu.com/p/60711252
页: [1]
查看完整版本: 爬虫遇到图形验证码