3 Tesseract-ocr 系列 : 安装 jTessBoxEditor,结合tesseract-ocr-3.4 训练

来源:互联网 发布:java prototype 编辑:程序博客网 时间:2024/06/08 13:23

我的本地环境 Ubuntu16.04 + Tesseract-ocr-3.4

上篇博客中提到可以使用 jTessBoxEditor 这个工具生成带字体格式的字体图片文件 (~.tif 和 ~.box).这里主要将其安装和使用。因为 jTessBoxEditor 以来 java 虚拟机,所以在安装前要先安装 java。

一、 安装 java

主要参考:
Ubuntu16.04安装java
http://blog.csdn.net/miaoqiucheng/article/details/52717294

ubuntu16.04搭建java环境
http://blog.csdn.net/sunxiaoju/article/details/51994559

我下载的版本是: jdk-8u144-linux-x64.tar.gz
下载地址
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

二、 安装和使用 jTessBoxEditor

主要参考:
利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率
http://www.cnblogs.com/zhongtang/p/5555950.html

  1. 下载 jTessBoxEditor,下载地址:
    https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-1.5.zip/download?use_mirror=nchc

  2. 解压
    tar -zxvf jTessBoxEditor-1.7.3

  3. 跳转到解压后的目录:
    cd /~/jTessBoxEditor-1.7.3

  4. 启动 jTessBoxEditor,命令行输入
    java -Xms128m -Xmx1024m -jar jTessBoxEditor.jar

  5. 打开后界面如图:
    这里写图片描述

  6. 具体使用方法见博客:
    利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率
    http://www.cnblogs.com/zhongtang/p/5555950.html