linux (CentOS)安装python-tesseract 用于验证码识别

来源:互联网 发布:淘宝转化手机端链接 编辑:程序博客网 时间:2024/05/17 06:50


python-tesseract 是 tesseract的python封装库,能够用于验证码的识别。尤其是可以通过更改识别库的名称达到使用自己训练出来的库的目的,尤为方便。关于如何训练tesseract-ocr 的识别库见 我的另一篇博文。


下面是官方版安装python-tesseract 在CentOS6.5测试成功。


【官方安装python-tesseract】

yum groupinstall "Development Tools" -y 
yum -y install wget cmake  
yum -y install libjpeg-devel libpng-devel libtiff-devel zlib-devel 
yum -y install gcc gcc-c++ make numpy 
wget http://www.leptonica.com/source/leptonica-1.71.tar.gz 
tar zxvf leptonica-1.70.tar.gz 
cd leptonica-1.70 
./configure --prefix=/usr 
make 
make install 
 
cd .. 
wget http://downloads.sourceforge.net/project/opencvlibrary/opencv-unix/2.4.3/OpenCV-2.4.3.tar.bz2 
tar jxvf OpenCV-2.4.3.tar.bz2 
cd OpenCV-2.4.3 
cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr -D BUILD_PYTHON_SUPPORT=ON . 
make 
make install 
 
cd .. 
#svn checkout http://tesseract-ocr.googlecode.com/svn/trunk/ tesseract-ocr 
#wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz 
#tar zxvf tesseract-ocr-3.02.02.tar.gzcd tesseract-ocr/ 
wget https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz 
tar zxvf tesseract-ocr-3.03-rc1.tar.gz 
cd tesseract-ocr 
/autogen.sh 
./configure --prefix=/usr 
make 
make install 
cp tessdata/eng* /usr/share/tessdata 
 
cd .. 
wget http://peak.telecommunity.com/dist/ez_setup.py 
python ez_setup.py  
easy_install pip 
yum install python-devel -y 
svn checkout http://python-tesseract.googlecode.com/svn/trunk/ python-tesseract 
cd python-tesseract 
python setup.py build 
python setup.py install 
cd test-slim 
rm *.pyc 
rm *.pyd 
python test.py


【坑】

    以最终安装目的去搜索资料吧。像python-tesseract 需要安装opencv和numpy,而安装opencv并不能通过pip install去安装,单独安装的时候你会发现网上的资料特别杂,尤为本身opencv就是就是一个大工程,本身就是就一个大课题,所以不太的运用背景往往就导致别人能够安装成功而你不行。所以,效率最高的还是到官网找到安装说明,特别是了解清楚需哪些依赖库。


0 0