Python调用Tesseract-OCR 3.0.4

来源:互联网 发布:吉利知豆d3图片 编辑:程序博客网 时间:2024/05/17 22:19

注意事项:一.确认本地python版本,最好2.7以上。确认ctypesos包在python

             方法:命令行输入python进入python环境

                   输入import ctypes

                        help(ctypes)

                   os同理

         二.注意3.0.43.0.2api不同。官网上是3.0.2的版本,使用会报错。

         三.找到/etc/ld.so.conf打开后添加一行:/usr/local/lib然后执行/sbin/ldconfig -v

         四.注意图片不要放在根目录下,要写绝对路径

代码如下:

#coding=utf-8

import os

import ctypes

 

lang = "eng+chi_sim"                       #语言包名称

filename ="/usr/local/6.jpg"                 #图片文件位置

libname ="/usr/local/lib/libtesseract.so.3"      #类库的位置,tesseract默认将libtesseract.so.3安装在左侧路径,若不然则使用locate定位这个文件,输入正确的路径位置

TESSDATA_PREFIX ="/usr/local/share"          #指定traindata的位置,默认为左侧路径

tesseract =ctypes.cdll.LoadLibrary(libname)      #实例化对象

api = tesseract.TessBaseAPICreate()

rc = tesseract.TessBaseAPIInit3(api,TESSDATA_PREFIX, lang)

if (rc):

   tesseract.TessBaseAPIDelete(api)

   print("Could not initialize tesseract.\n")

   exit(3)

 

tesseract.TessBaseAPIProcessPages(api,filename, None, 0, None)

text_out =tesseract.TessBaseAPIGetUTF8Text(api)

result_text = ctypes.string_at(text_out)     

 

print(result_text)                             #输出结果

 

原创粉丝点击