tesseract安装使用,人工智,图文识别验证码 系统操作(python)
来源:互联网 发布:互动投影软件 编辑:程序博客网 时间:2024/06/07 03:12
这两天自学关于自我感觉很牛的图文识别系统,给你一张图片可以扫描其中的文字(是不是很牛嘿嘿!!!),以下是我在学习过程中所遇到的一点问题。先前在学习之前肯定是安装各种文件,各种包……(头痛……),查过各种版本的安装流程。其中也有好多大牛写的(大牛请之行绕道……),而我是总结一下自己的安装加理解经验。
1.安装tesseract:这个文件很是智能,我们不用为环境变量中的path发愁,安装时安装包自动设置PATH变量
然而我安装的时候由于各种原因,我的语言包安装一直出现error,所以我直接跳过安装语言,并删除该软件文件夹的tessdata(语言包),在网上直接找到语言包解压,导入……
然后成功。为了检验我们的安装成功,我们可以自己用画图软件(画个数字,简单识别),创建一个imgname.png 图片,保存到一个文件夹,用dos 命令 输入:tesseractimgname.pngimgname -l eng -psm 7 nobatch digits(imgname是自己文件的名字)
会在文件中找到一个文本文档,打开其中就有自己编写的数字。
安装pytesseract(win)
应用Fiddler获得验证码下载并用自己熟悉的语言(python)抓取网站的一系列验证码进行识别训练
2. 下载jTessBoxEditor:http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
合并图像的作用把上面我们爬取的验证码,进行合并,打包,
运行jTessBoxEditor工具
在点击菜单栏中Tools--->Merge TIFF
在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件(注意文件名要严格一样num.font.exp0.tif)
生成Box File文件:CMD:tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
box文件的矫正:用jTessBoxEditor打开num.font.exp0.tif文件(必须将上一步生成的.box和.tif样本文件放在同一目录,并且为了方便使用我经他们和图片文件夹放到同级目录命名为左边的为img,右边的为生成的几个文件)
定义字体特征文件:在样本图片所在目录下创建一个名称为font_properties的文件,用记事本打开,输入以下下内容:font 0 0 0 0 0
注意: font_properties 和.box 一样是个文件不是其他
3.生成语言文件:调用 make_traineddata.bat
4. 复制语言文件
将生成的num.traineddata拷贝到Tesseract-OCR安装目录下的tessdata文件夹中
8. 测试
- tesseract安装使用,人工智,图文识别验证码 系统操作(python)
- linux (CentOS)安装python-tesseract 用于验证码识别
- win7 selenium python 验证码识别 pytesser使用 安装Pillow、pytesser、tesseract-ocr
- python使用tesseract-ocr完成验证码识别
- python 使用tesseract-ocr , pytesseract , PIL进行验证码识别
- python使用tesseract-ocr完成验证码识别
- python使用tesseract-ocr完成验证码识别
- python 做验证码识别 tesseract
- python pytesser tesseract-ocr 验证码识别
- Python验证码识别 安装Pillow、tesseract-ocr与pytesseract模块的安装以及错误解决
- Win7下安装Python图像处理库PIL、pytesser、tesseract进行验证码识别
- 关于Python验证码识别安装PIL、tesseract-ocr与pytesseract模块的错误解决
- 使用Tesseract-ocr识别验证码,暴力破解某高校学生登录系统
- python基于PIL和tesseract的验证码识别
- python+pillow+pytesseract+Tesseract-OCR验证码识别
- linux python 人工识别验证码的方法
- 验证码的识别tesseract
- 人工验证码识别技术
- 思维导图-xmind
- 对服务器的请求已遭到某个扩展程序的阻止net::ERR_BLOCKED_BY_CLIENT
- Hello World
- mac下通过vlc实现rtsp服务器转码
- RadioGroup的OnCheckedChangeListener的坑
- tesseract安装使用,人工智,图文识别验证码 系统操作(python)
- 二十八、模块
- java.lang.NoSuchMethodException
- Java之线程同步概述
- Go动态运行函数
- GIT操作指令(自用)
- NLP汉语自然语言处理原理与实践 7 建设语言资源ku
- ubuntu 完全卸载nginx
- C语言中调用LUA(2)--获取全局变量值