Tesseract-OCR入门使用(2)-VS2010调用API

来源:互联网 发布:短信软件哪个好 编辑:程序博客网 时间:2024/04/30 13:04
本系列简单介绍Tesseract-OCR 3.x版本如何上手使用,只适用于入门级别。

目录
1.DLL的获取
2.环境配置
3.调用API
4.关于API

1.DLL获取
Tesseract-OCR除了提供命令行方式调用(具体看参考《Tesseract-OCR入门使用(1)-安装包获取和命令行调用》),还支持API方式的调用。
不过支持API的DLL并未包含在常见的安装包中,需要另行获取。
下载地址:tesseract-3.02.02-win32-lib-include-dirs(网上很多链接都指向Google,但是目前已经不能使用,目前建议直接在CSDN上下载)
PS:在使用后发现缺失liblept168.dll文件,可以从Tesseract-OCR在VS2010下调用API所需要的dll文件下载

2.环境配置
想要使用API,就需要在工程中引入其DLL,具体需要
step1 将下载的include文件夹和lib文件夹拷贝至相应目录(只要能找到即可)

step2 引用以下.h文件和.lib文件
#include "baseapi.h"
#include "strngs.h"
#pragma comment(lib,"../../../Lib/tesseract_302/lib/libtesseract302.lib")

step3 将识依赖的文件拷贝至运行目录(如Debug,Release等)

3.调用API
本文只设计最基本的调用,因此代码非常简单
tesseract::TessBaseAPI  api;  api.Init(NULL, "eng", tesseract::OEM_DEFAULT);  //初始化,设置语言包,中文简体:chi_sim;英文:eng;也可以自己训练语言包STRING text_out;  if (!api.ProcessPages(chDst, NULL, 0, &text_out))  {  //return 0;  AfxMessageBox(L"api error");}  delete chDst;
PS:因为本文采用MFC作为测试环境,代码还包含字符类型转换以及一些简单MFC API,但是与Tesseract无关,因此就不做说明。

4.关于API
其实Tesseract-OCR的API功能还算全面,本文篇幅有限,就不再一一说明,具体可参考API examples
而且从api看来Tesseract-OCR是有规划版面分析的,虽然现在没啥用。

以下是完成后的Tesseract-OCR API调用Demo,是不是比命令行方便很多:)

参考资料
1.《字符识别Google开源Tesseract-ocr的DLL调用方法
2.《Tesseract-OCR在VS2010下调用API所需要的dll文件
3.《tesseract-3.02.02-win32-lib-include-dirs
4.《在VS2010上编译和使用tesseract_ocr识别验证码
5.《【Tesseract-OCR】在VS2010环境下调用API方法---简单快速之总结
6.《API examples
2 0