关于使用ImageMagick和Tesseract进行简单数字图像识别
来源:互联网 发布:巨人网络工资待遇 编辑:程序博客网 时间:2024/04/30 17:15
据说Tesseract可是世界排名第三的OCR神器,2010年又更新了3.0版本。Tesseract原先是HP写的,现在Open Source了。
下面介绍怎么用Tesseract配合ImageMagick进行简单的数字图像识别。
首先Tesseract只能识别bmp,tif,所以先拿ImageMagick转换一下图像。注意得无压缩转换,否则Tesseract报错。
convert -compress none ./pict.gif./in1.tif
然后将图片灰度化-colorspace Gray,或者直接二值化-monochrome成黑白,这样识别率会高一点。
接下来裁剪出想要进行精确识别的部分:-crop widthxheight+x+y
比如-crop 320x40+0+1,从左上角开始坐标为(0,1)处,裁剪出320*40大小的图像。注意参数里是英文字母x,不是乘号*。
还有就是网上搜到的-depth 8和-alpha off参数,实践表明加不加效果不大。
一步完成就像这样:
convert -compress none-depth 8 -alpha off -crop 535x24+2+2 -monochrome ./pict.gif ./in1.tif
预处理完之后最好再放大一下,这次的样例放大到500%~600%的识别效率就能令人满意。
convert ./in1.tif -scale600% ./in2.tif
然后就可以开始用Tesseract进行识别了。
tesseract ./in2.tif ./1-l eng -psm 7
-l eng是选择语言,-psm 7是说源图像是只在一行上的文字。具体说明看Tesseract的帮助。
下面就是一些实例。
原图如下:
下面是二值化之后的效果,可以看见还是有些噪点的。
下面是灰度化之后的效果。
识别之后的结果是:
05093519038515450004738373775251263J91648J94318529731857
可以看到有些误报,针对这个问题又特殊处理一下误报字符,结果识别率在90%左右
参考资料:
ImageMagick: http://www.imagemagick.org
Tesseract: http://code.google.com/p/tesseract-ocr
- 关于使用ImageMagick和Tesseract进行简单数字图像识别
- 使用tesseract-ocr进行简单的验证码识别和训练
- 用imagemagick和tesseract-ocr破解简单验证码
- 使用tesseract进行中文文字识别
- Tesseract 进行图像识别
- 使用(ImageMagick+tesseract-ocr)实现图像验证码识别实例
- 使用(ImageMagick+tesseract-ocr)实现图像验证码识别实例
- 关于使用tesseract-ocr开发简单的图文识别(转)
- imagemagick tesseract-ocr破解简单验证码
- python 使用tesseract-ocr , pytesseract , PIL进行验证码识别
- centos上 java使用Tesseract进行ocr识别
- 5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别
- 使用支持向量机(分类)对手写体数字图像进行识别
- Tesseract-OCR 进行文字识别 VS2010
- 利用tesseract-ocr进行验证码识别
- (转)imagemagick + tesseract-ocr
- Tesseract-OCR 进行文字识别 VS2010及不安装opencv,就可以使用opencv
- C++在Tesseract-OCR中使用自己训练的字库进行字体识别
- thinking in pushlet
- .NET中的设计模式五:观察者模式 .
- 微软ASP.NET站点部署指南(7):生产环境部署
- ubuntu翻译软件安装
- android 个人记账工具 OnMyMeans 源码地址
- 关于使用ImageMagick和Tesseract进行简单数字图像识别
- Linux目录结构包括文件类型和一些重要的文件子目录
- Oracle IO问题解析
- AT91RM9200启动机制简析
- 屏幕背景色设置
- [EBOOK] Building Android Apps with HTML, CSS, and JavaScript
- vim配置vimrc详解
- Mybatis SQL中XML运算操作符使用
- 用脚本实现对WINCE控制面板功能的直接调用* B