python-tesseract下载安装及使用

来源:互联网 发布:mac版qq飞车 编辑:程序博客网 时间:2024/05/29 19:01

tesseract下载安装

网上有多种办法,这里我只说我用的办法了:
登录到github的官网,然后再搜索栏里输入tesseract搜索
这里写图片描述
选中下图第一个
这里写图片描述
然后点击wiki选择我们要下载的版本
这里写图片描述
这里我安装的是windows版本的,并且我是用python代码跑的
这里写图片描述
其他语言包下载好之后放在安装目录下的tessdata下就行了
这里写图片描述
下载好之后双击.exe文件就可以安装了。
这里写图描述
安装跟着安装步骤默认点击就行了,不要忘了把安装路径放在path环境变量里,这里我推荐放在最前面,因为我就是放在了最后面导致在dos中死活识别不了这个环境变量。
安装好之后再dos中输如tesseract -v:
这里写图片描述
显示如上图则证明安装好了。

tesseract使用

tesseract使用
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

例如:

tesseract code.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.