tesseract 识别中文字符
来源:互联网 发布:淘宝开店流程 手机 编辑:程序博客网 时间:2024/06/07 00:05
tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识
下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=
下载之后进行安装,不再演示。
在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg
然后运行:tesseract 123.jpg result
会把123.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好,要下载一个中文包:http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了
测试下:
源文件(图片):此开卷第一回也。作者自云曾历过一番梦幻之后,故将真事隐去,
而借“通灵”说此《石头记》一书也,故曰“甄士隐”云云。但书中所记何事何人?
Tesseract release notes August 27 2007 - V2.01
Fixed UTF8 input problems with box file reader.
4-834578457384578-871238917238912739823749834789
输入:tesseract 123.jpg result
测试结果为:
此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去,
而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7
Tesseract re1ease notes August Z7 Z007 7 \「Z.O1
Fixed [二TFS input prob1ems \vit11 box fi1e reader.
4783457845738457S7871Z38917Z38912739S23749834789
识别率还是蛮高的,,,更详细的需要自己去钻研了。
- tesseract 识别中文字符
- tesseract-ocr识别字符
- Tesseract-OCR 字符识别技术
- java零碎要点---Tesseract 3.0,Java OCR 图像智能字符识别技术,可识别中文
- Tesseract识别指定字符范围的字符
- tesseract OCR Engine overview字符识别学习
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别-样书训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别-样本训练
- Tesseract-OCR 字符识别---样本训练
- tesseract OCR Engine overview字符识别学习
- Knight Moves bfs(广度优先搜索)
- PDF转换成图片JPG
- http传输协议
- 反省中
- 设计模式之观察者模式
- tesseract 识别中文字符
- hdu 2665 Kth number(主席树)
- 没有显示器情况下,安装和使用树莓派
- 安卓虚拟机启动后报错: 类似 SDK Manager] Error: Error parsing .....devices.xml 解决方案
- MySQL LIKE 子句
- linux内核学习路径
- Spring JPA Data 多数据源
- 匡恩网络物联网安全解决之法
- 快速排序的原理以及Java代码