tesseract训练字符中遇到的问题总结
来源:互联网 发布:外汇账户数据采集规范 编辑:程序博客网 时间:2024/05/18 23:27
参考文章: http://my.oschina.net/lixinspace/blog/60124 的采用tessract库训练字符的过程,
对中文字符库,比如车牌中的省份简称等的训练,字母的训练,数目和字母的训练。
在训练过程中,发现了以下问题:
1、font_properties的文件创建:
文件中的内容为:UnknownFont 0 0 0 0 0
因为在训练过程中,我并没有对文件命名,所以系统默认是:UnknownFont 这个名称。
2、把unicharset, inttemp, normproto, pfftable这四个文件加上前缀“orderNo.”时,少写了一个文件shapetable,此文件也应该重新命名。
3、鉴于 http://www.lixin.me/blog/2012/05/26/29536 在下面讨论中,提到的3.02版本需要一个 shapeclustering 过程
Example:
font_properties file:
timesitalic 1 0 0 1 0
shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr
其实是没有必要的。
对中文字符库,比如车牌中的省份简称等的训练,字母的训练,数目和字母的训练。
在训练过程中,发现了以下问题:
1、font_properties的文件创建:
文件中的内容为:UnknownFont 0 0 0 0 0
因为在训练过程中,我并没有对文件命名,所以系统默认是:UnknownFont 这个名称。
2、把unicharset, inttemp, normproto, pfftable这四个文件加上前缀“orderNo.”时,少写了一个文件shapetable,此文件也应该重新命名。
3、鉴于 http://www.lixin.me/blog/2012/05/26/29536 在下面讨论中,提到的3.02版本需要一个 shapeclustering 过程
Example:
font_properties file:
timesitalic 1 0 0 1 0
shapeclustering -F font_properties -U unicharset eng.timesitalic.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset eng.timesitalic.exp0.tr
其实是没有必要的。
以下附上命令行使用,可以将这些拷贝到一个文件中,命名为.bat文件,就可以直接使用,而不用一行一行敲代码了。
tesseract.exe letterNumMerge.tif letterNumMerge batch.nochop makeboxpausetesseract.exe letterNumMerge.tif letterNumMerge nobatch box.trainunicharset_extractor.exe letterNumMerge.boxmftraining.exe -F font_properties -U unicharset letterNumMerge.trcntraining.exe letterNumMerge.trrename normproto letterNumMerge.normprotorename unicharset letterNumMerge.unicharsetrename inttemp letterNumMerge.inttemprename pffmtable letterNumMerge.pffmtablerename shapetable letterNumMerge.shapetablepausecombine_tessdata.exe letterNumMerge.pause
0 0
- tesseract训练字符中遇到的问题总结
- tesseract 遇到的一些问题
- TensorFlow训练遇到的问题总结
- fcn训练遇到的问题总结
- 训练FCN时遇到的问题总结
- 【Tesseract】Tesseract 的训练流程
- 使用caffe训练faster-rcnn时遇到的问题总结
- 使用caffe训练faster-rcnn时遇到的问题总结
- 使用caffe训练faster-rcnn时遇到的问题总结
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别-样书训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- 常用sql语句
- java缓冲字节流的复制数据,数据以数组读取、写入,效率更高
- JQuery UI - slider
- Oracle导出单张表
- STM32 keil printf的使用
- tesseract训练字符中遇到的问题总结
- SAP 货币转换中的转换因子
- VS2010支持的源代码格式
- 大白话解析模拟退火算法
- KVO实例浅析
- 在1970-9999年之间输入一个日期实现输出星期几
- QT_PC实战常见问题_应用发布相关
- java文件copy操作,IO,
- Linux makefile 教程 非常详细,且易懂