【Tesseract-OCR】在VS2010环境下调用API方法---简单快速之总结
来源:互联网 发布:济南程序员兼职平台 编辑:程序博客网 时间:2024/05/01 03:16
cxf7394373 的 字符识别Google开源Tesseract-ocr的DLL调用方法
夏梦c 的Tesseract3.02简单环境搭建
tsinson 的 tesseract下的简单应用
下面开始介绍我的使用经验:
一,下载lib和dll
可以从这里 http://code.google.com/p/tesseract-ocr/downloads/list 下载
tesseract-ocr-setup-3.02.02.exeWindows installer of tesseract-ocr 3.02.02 (including English language data) Featured然后进行安装,如此可以方便地省去好多配置细节:如修改环境变量【如果不采用环境变量方式,则需要对于每个工程目录建立tessdata文件夹,并且里面放置所需要的chi_sim.traineddata等语言包】,也不再需要下载tesseract-3.02.02-win32-lib-include-dirs.zip, 更方便以后训练出自己的 traineddata 文件
需要注意的是,安装目录下lib里面 libtesseract302d.dll 是针对VS2008的,需要用一个vs2010编译出的替换下来才可以在VS2010下正常使用。
另外还需要将 liblept168.dll 和 liblept168d.dll两个文件一并下载放到lib里面。 【这三个文件均可以从tsinson提供的样例工程里面找到】
二,修改环境变量Path
在环境变量Path中增加指向 安装目录下lib的路径,比如C:\Program Files\Tesseract-OCR\lib ,以便exe运行时能找到所需要的dll
三,工程中属性中增加路径
在自己的工程属性中VC++目录下增加包含目录和库目录,以便VS2010查找文件。例如
包含目录 下新增:C:\Program Files\Tesseract-OCR\include\tesseract
库目录 下新增: C:\Program Files\Tesseract-OCR\lib
四,增加语言训练包
直接将语言训练包放置在 安装目录 tessdata文件夹 下就好,比如将tesseract-ocr-3.02.chi_sim.tar.gz中的chi_sim.traineddata 文件直接抽取出来放在 C:\Program Files\Tesseract-OCR\tessdata 下面,就可以支持中文简体字符的识别啦。当然,自己训练出来的 traineddata 文件也是要放在这里的才生效。
五,API 简单 使用方法
这里可以参照 cxf7394373 的 字符识别Google开源Tesseract-ocr的DLL调用方法
使用其API的一种模式大致是这样:先包含头文件,连接库;然后再定义一个api类,配置好参数之后提取识别结果
#include "strngs.h"#include "baseapi.h"#pragma comment(lib,"libtesseract302d.lib")//////////////// tesseract::TessBaseAPI api; api.Init(NULL, "eng", tesseract::OEM_DEFAULT); //初始化,设置语言包,中文简体:chi_sim;英文:eng;也可以自己训练语言包 //api.SetVariable( "tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz" ); STRING text_out; if (!api.ProcessPages("kaze.tif", NULL, 0, &text_out)) { //AfxMessageBox("tesseract 处理出现异常"); return 0; } cout<<text_out.string(); cout<<UTF8ToGBK(text_out.string()).c_str();
- 【Tesseract-OCR】在VS2010环境下调用API方法---简单快速之总结
- 【Tesseract-OCR】在VS2010环境下调用API方法—简单快速之总结
- 【Tesseract-OCR】在VS2010环境下调用API方法---简单快速之总结
- 【Tesseract-OCR】在VS2010环境下使用的方法---精简快速入门之总结
- 【Tesseract-OCR】在VS2012环境下调用API方法---注意避免名字冲突
- Tesseract-ocr在vs2008环境下的调用方法
- tesseract OCR库在vs2010中的调用
- tesseract OCR库在vs2010中的调用
- OCR之Tesseract在VS2010中的使用
- Tesseract-OCR入门使用(2)-VS2010调用API
- Tesseract-OCR引擎和VS2010工程简单调用
- tesseract-ocr之VS2010下编译所需dll、lib
- tesseract 在vs2010 下使用API的配置
- OCR----Python调用Tesseract引擎(Ubuntu下)
- Tesseract-OCR在MAC下的安装
- 在linux下安装tesseract-ocr
- Tesseract-OCR在MAC下的安装
- tesseract-ocr在vs2010下面的安装调试
- windows7中文界面换英文
- 大话设计模式1:初识设计模式及设计模式五大基本原则
- 批量删除SVN项目目录下的所有.svn文件
- andorid开发 sqlite 使用教程
- mysql update delete 安全模式
- 【Tesseract-OCR】在VS2010环境下调用API方法---简单快速之总结
- Oracle回收站的使用
- oozie 4.2.0编译问题
- javascript运行机制之执行顺序详解
- TCP 流量控制
- Android AsyncPlayer
- Android开发中图片的三级缓存策略
- django进阶11 聚合查询 Q
- Objective-C之KVC(键值编码)