tesseract-ocr字库训练图文讲解
来源:互联网 发布:环境一号卫星数据下载 编辑:程序博客网 时间:2024/05/21 17:21
第一步合成图片集
你需要把使用jTessBoxEditor工具把你的训练素材及多张图片合并成一张tif格式的图片集
第二步 生成box文件
运行tesseract命令,tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 batch.nochop makebox,生成box文件 ,
第三步
用 jTessBoxEditor打开生成的图片集 mjorcen.normal.exp0.tif ,注意 mjorcen.normal.exp0.tif 与对应的box文件一定要和他处于同一个文件夹下,然后就可以开始调整了,调整完之后保存
第四步 训练
首先在目录下新建一个名字为“font_properties”的文本文件,并且输入文本 normal 0 0 0 0 0,表示非斜体,粗体的一般字体
执行 tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 nobatch box.train 进行测试训练
执行 unicharset_extractor mjorcen.normal.exp0.box 目录下生成一个名为unicharset的文件
接下来开始正式进行训练
1、执行 shapeclustering -F font_properties.txt -U unicharset mjorcen.normal.exp0.tr
2 、执行 mftraining -F font_properties.txt -U unicharset -O unicharset mjorcen.normal.exp0.tr
3 执行 cntraining mjorcen.normal.exp0.tr
目录下会生成对应下列五个文件,在这五个文件前加上normal.进行重命名
4 执行 combine_tessdata normal. 合并五个文件,此时目录下的normal.traineddata 就是训练好的字库文件
第五步 测试字库
把normal.traineddata 复制到Tesseract-OCRt程序目录下的“tessdata”目录
在Tesseract-OCRt程序目录下执行 tesseract.exe mjorcen.normal.exp0.png out –l normal
out.txt文件中会保存你识别到的数据;
这个其实网上资料很多,但大都描述的不够详细和完整,这里我一步一步把使用tesseract-ocr 训练字库的方法和步骤进行了描述,亲测是没有问题。
- tesseract-ocr字库训练图文讲解
- tesseract-ocr字库训练图文讲解
- Tesseract-ocr训练字库
- tesseract-OCR字库训练
- Tesseract-OCR 训练自己的中文字库
- tesseract-ocr识别中文与字库训练
- Tesseract-OCR识别中文与训练字库实例
- Tesseract OCR 3.05.01 VS2015编译 及 字库训练
- Tesseract-OCR识别中文与训练字库实例
- Tesseract-OCR识别中文与训练字库实例
- tesseract训练字库
- OCR-光学字符识别之训练Tesseract3字库图文详解
- tesseract-ocr训练方法
- Tesseract-OCR训练笔记
- tesseract-ocr训练方法
- tesseract-ocr训练
- tesseract-ocr训练步骤
- tesseract-ocr训练方法
- 零基础学习hadoop到上手工作线路指导初级篇:hive及mapreduce
- android audio arch
- Bufbomb lab
- anconda下python版本的切换
- 基于Docker运行consul
- tesseract-ocr字库训练图文讲解
- SPDIF和AES
- 最新最全的阿里云产品手册出炉
- floating ip
- IOC模式理解
- webpack 学习指南
- Jmeter中的几个重要测试指标释义
- iOS 遇到的一些问题
- mysql5.7用户管理:添加用户、授权、撤权、修改密码