linux下离线安装tesseract-ocr
来源:互联网 发布:立体模拟软件 编辑:程序博客网 时间:2024/05/18 03:42
tesseract-ocr时一个识别图片中文字字母的引擎,具体介绍可以百度。
由于linux位于公司内网无法联网下载安装,所以需要离线安装。由于需要编译源码,所以首先需要安装gcc编译工具,gcc的安装方法请自行百度。tesseract-ocr首先需要下载下面的源码包(按照索引的顺序安装,如果编译时报出缺少某组建,下载安装即可):
1.autoconf-2.69.tar.gz
2.automake-1.15.tar.gz
3.libtool-2.4.2.tar.gz
4.leptonica-1.73.tar.gz
5.libpng-1.5.8.tar.gz
6.tesseract-ocr3.02.02.tar.gz
7.eng.traineddata.gz
以上包的版本可以自行选择,但注意tesseract-ocr3.02.02需要1.69版本以上的leptonica。其他包之间的版本关系没有试过。
一次将上面列出的包解压:tar zxvf xxxx.tar.gz
然后进入解压后的目录执行:./configure && make && make install来配置编译安装。对于eng.traineddata.gz语言包,解压后需要将tesseract-ocr/tessdata下的文件拷贝到/usr/local/share/tessdata中(此步骤未验证是否必须)。
因为这里只安装了libpng的依赖包,所以只可以解析png的图片,其他格式的文件需要另外下载安装包,入libjp等等。
如果一切顺利,成功安装好了esseract-ocr,可以自己生成一张带有字母的png图片放入服务器中,切入esseract-ocr目录后执行
tesseract test.png test -l eng
如果成功会生成一个test.txt文件,文件内容即为识别出的文字字母内容。
如果报出以下错误:
Tesseract Open Source OCR Engine v3.02.02 with LeptonicaError in findTiffCompression: function not presentError in pixReadStreamTiff: function not presentError in pixReadStream: tiff: no pix returnedError in pixRead: pix not readUnsupported image type.先检查leptonica版本是否支持tesseract-ocr的版本,再先检查libpng-1.5.8.tar.gz包(即支持图片依赖包)是否正确安装,如果正确安装后依然报同样的错误,将leptonica卸载后重装一遍(作者就是这么解决的)。
- linux下离线安装tesseract-ocr
- linux下离线安装tesseract-ocr
- linux下安装tesseract-ocr
- Linux下tesseract-ocr安装
- 在linux下安装tesseract-ocr
- linux 安装Tesseract-OCR
- linux 安装Tesseract-OCR
- mac下安装tesseract-ocr
- 【OCR】CentOS7下编译安装tesseract-ocr
- 【转】linux 安装Tesseract-OCR
- Tesseract-OCR在MAC下的安装
- CentOS下编译安装tesseract-ocr
- centos下安装Tesseract OCR libs
- Tesseract-OCR在MAC下的安装
- CentOS7下编译安装tesseract-ocr
- Linux下OCR识别引擎tesseract使用方法
- linux安装tesseract以及python调用tesseract-ocr
- Tesseract-ocr的安装
- 关于MyBatis一些小错误,元素内容必须由格式正确的字符数据或标记组成.
- Visual Studio制作安装程序教程
- 关于图片压缩
- Android4.1添加新的按键(4)
- 【VB6】实现VB6中类的静态方法
- linux下离线安装tesseract-ocr
- 编程中无穷大的量的使用技巧
- 读取手机联系人
- CintaNotes:怎么恢复误删的笔记
- uva10881 Piotr's Ants
- abap中利用se95还原程序到原始版本
- 初识Java深拷贝和浅拷贝(深克隆和浅克隆)
- 电商放大镜效果
- 强引用和弱引用