恪守 发表于 2015-4-23 18:02:25

基于pytesseract的验证码识别

大家好,这次给大家带来介绍python的验证码识别的工具。pytesseract是一个很好用图像识别的工具,小白也可以轻松的上手
一、需要的软件
1、pytesseract
2、PIL或者是pillow都可以
3、tesseract-ocr
第一、二两个都可以通过pip安装,第三个百度就可以找到。
二、使用方法
1.先用PIL打开图片
2.调用pytesseract的image_to_string()方法即可,简单吧!
三、测试识别
我们先用PYQT写一个简单的测试界面,方便大家看,如下图:

1.第一组验证上场:

识别的速度很快,基本上是秒杀。:titter:
2.第二组验证上场:

这个识别无压力:victory:
3.第三组验证上场:

这样的字母也是可以的哦:big
4.第四组验证上场:

这个就出了点小的问题,不能直接识别了,可能需要对图像进行处理再识别。:shutup:
四、结语
tesseract是一个很好用的工具,识别率也还可以,就算是小白也可以轻松的使用,大家可以下载下来玩玩,祝大家玩的愉快:victory:

lazybiner 发表于 2015-4-23 19:18:39

能不能提供Demo的下载?谢谢

qianczar 发表于 2015-6-6 15:29:25

tesseract-ocr 安装了相应的exe文件,但是还不行,不知道是哪里出了问题?http://xxx.fishc.com/album/201506/06/152847fhjnnsoql0hfqqwz.png

qianczar 发表于 2015-6-7 20:31:54

用是可以用了,但是谁能告诉我,我导入电脑截图的“8888”,输出“sass”是什么鬼?

windson 发表于 2015-9-27 17:51:02

qianczar 发表于 2015-6-6 15:29
tesseract-ocr 安装了相应的exe文件,但是还不行,不知道是哪里出了问题?

大哥,你这个问题是怎样解决的啊?我也碰到这样问题。。。。。
还有tesseract-ocr连接可以发一个吗??

发表于 2015-11-11 16:05:06

sadas

发表于 2015-11-11 16:05:36

yeayee.com有相关的模块

郝斯文 发表于 2015-12-4 12:02:48

大神帮忙看下,这是什么问题....

Traceback (most recent call last):
File "/Users/hy/Documents/PyCharm/Test1/t.py", line 12, in <module>
    vcode = image_to_string(image)
File "/System/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/pytesseract/pytesseract.py", line 166, in image_to_string
    errors = get_errors(error_string)
File "/System/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/pytesseract/pytesseract.py", line 114, in get_errors
    error_lines = tuple(line for line in lines if line.find('Error') >= 0)
File "/System/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/pytesseract/pytesseract.py", line 114, in <genexpr>
    error_lines = tuple(line for line in lines if line.find('Error') >= 0)
TypeError: Type str doesn't support the buffer API

Jenney 发表于 2015-12-7 11:15:25

tesseract-ocr终于安装好了,经测试成功可用哈哈哈哈

Jenney 发表于 2015-12-7 11:18:32

能有代码下载就更好了,或者可以发给我一份么?学习膜拜下!zuoyoux@126.com

cmy2my 发表于 2015-12-25 11:03:48

急需!

Suddoo 发表于 2016-2-13 23:14:07

这样就可以写一个脚本破解简单的验证码了

As、蚂蚁 发表于 2016-3-10 21:07:15

qianczar 发表于 2015-6-6 15:29
tesseract-ocr 安装了相应的exe文件,但是还不行,不知道是哪里出了问题?

同学你这个问题解决了吗 我也遇到类似的

hostmi 发表于 2016-4-21 09:53:12

感觉这个东西很实用啊,不知道复杂一点的东西可以么{:10_266:}{:10_266:}

Andriy 发表于 2016-5-19 13:56:23

正在在selenium上需要!

zhushengwen 发表于 2016-6-12 21:57:52

非常感谢分享

Nev3r、More 发表于 2016-7-10 09:16:29

这样就可以写一个脚本破解简单的验证码了

不苦小和尚 发表于 2016-10-25 07:03:15

楼主为什么识别率这么高啊,我的都识别不出来{:10_254:}

wangguohui 发表于 2016-12-15 10:31:33

有源码吗,分享下,谢谢啊

touch 发表于 2017-6-1 16:22:13

bucuo
页: [1] 2
查看完整版本: 基于pytesseract的验证码识别