鱼C论坛

 找回密码
 立即注册
查看: 1491|回复: 6

[已解决]爬虫遇到图形验证码

[复制链接]
发表于 2021-3-22 18:39:22 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如题

爬虫的时候,有图形验证码,request之后,原来的页面就会被刷新,即使获取到了所需的验证码的地址,也会被刷新成旧的验证码,即验证码会更新

有没有做过类似的大佬来唠唠,看看怎么解决

感谢
最佳答案
2021-3-23 02:01:27
本帖最后由 YunGuo 于 2021-3-23 02:16 编辑
Daniel_Zhang 发表于 2021-3-23 01:20
主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧

然后我假设识别成功了 ...


用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大小,截取网页全图,从全图中截取验证码,识别验证码,输入验证码,提交登录,登录成功就获取cookie,失败就重复之前的步骤。
得到登录后的cookie,后续操作就可以用requests携带cookie,用session保留会话(或者全程用selenium)。全程用requests是没有办法的,就像你说的,requests请求一次页面,验证码就刷新了。
整个过程的难点不在于验证码刷新问题,而在于验证码识别问题。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-3-23 00:59:39 | 显示全部楼层
这种动态验证码一般用selenium,截图再识别。识别的话,
第一个方法是对图片进行处理然后识别,像去噪、二值化等(比较常用,多用于比较简单的验证码(数字/字母),越复杂识别正确率越低),
第二个方法就是利用深度学习进行训练(比较麻烦,需要大量验证码图片,训练越多,识别正确率越高),
第三个方法就是利用打码平台识别(需要花钱,识别正确率较高)。
第四个方法就是人工识别(也就是自己输验证码,当然,这比较傻)
所以对于图形验证码,看你实际情况去用什么方法,想要成功率高,要么花时间去训练,要么用打码平台。不想花钱,又没那个时间,那就放弃吧。

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
Daniel_Zhang + 5 + 5 + 3 鱼C有你更精彩^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-23 01:20:09 | 显示全部楼层
YunGuo 发表于 2021-3-23 00:59
这种动态验证码一般用selenium,截图再识别。识别的话,
第一个方法是对图片进行处理然后识别,像去噪、二 ...

主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧

然后我假设识别成功了,我需要再次request去登录,但是二次request的话,是不是就会出现验证码被刷新的问题

那么我之前识别出来的验证码就毫无用处了,因为已经被刷新了

有没有什么办法能在 request 之后,还保持那个会话,即我 request 登录的时候能沿用之前的会话,即验证码不发生改变
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-3-23 02:01:27 | 显示全部楼层    本楼为最佳答案   
本帖最后由 YunGuo 于 2021-3-23 02:16 编辑
Daniel_Zhang 发表于 2021-3-23 01:20
主要是我现在有一个疑惑,我用 selenium 的话,要先 request 一遍那个页面对吧

然后我假设识别成功了 ...


用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大小,截取网页全图,从全图中截取验证码,识别验证码,输入验证码,提交登录,登录成功就获取cookie,失败就重复之前的步骤。
得到登录后的cookie,后续操作就可以用requests携带cookie,用session保留会话(或者全程用selenium)。全程用requests是没有办法的,就像你说的,requests请求一次页面,验证码就刷新了。
整个过程的难点不在于验证码刷新问题,而在于验证码识别问题。

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
Daniel_Zhang + 5 + 5 + 3 无条件支持楼主!

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-23 02:16:15 | 显示全部楼层
YunGuo 发表于 2021-3-23 02:01
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大 ...

嗯嗯,我先试一下

最佳会给的,稍等喔
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-23 05:28:55 | 显示全部楼层
YunGuo 发表于 2021-3-23 02:01
用selenium登录一般都是这几个步骤,get登录页,找到输入框输入用户名和密码,定位验证码图片位置和大 ...

太感谢了,总算弄好了,用的就是 selenium

我这个网页特别坑,验证码图片是直接base64的格式,得先截取下来转换成图片并保存

然后使用 pytesseract 模块识别 50 次,每输入一次识别的验证码,就提交一次

让 selenium 自动填充验证码并点击确认

验证码不正确就重新识别下一个验证码,验证码符合了就停止识别

而且我这个网页很奇怪,selenium模拟的时候,第一次提交,不论验证码是否正确,必定会 session expire,特别狗

只能先随便敲点,然后用 clear() 去清空输入

总之,感谢大佬指点

只能先随便
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-3-23 05:32:08 | 显示全部楼层
验证码识别的功能源自于知乎的一个大佬,比较基础的一个验证码识别模块,不带训练学习

https://zhuanlan.zhihu.com/p/60711252
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-6 18:51

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表