纯记录,Tesseract-OCR 中文字符训练
来源:互联网 发布:win7网络没有本地连接 编辑:程序博客网 时间:2024/05/19 18:00
参考了很多网上分享的东西,首先感谢他们。
由于最近有需求需要使用Tesseract-OCR来识别手写字符,开源的好像就好些了。
后面直接进入正题,直接说训练。
有部分网上说,要把图片转变成tif格式才来训练,其实jpg也是ok的,测试通过。
我操作的步骤如下:
1.将准备好的jpg或tif格式的图片(其他格式的尚未测试),通过jTessBoxEditor合并成一个tif格式文件。
2.生成.box文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 -l chi_sim batch.nochop makebox
保证tif文件与box文件在同一目录下。
3.文字校正:使用jTessBoxEditor来处理。
4.产生字符特征文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 nobatch box.train
5.计算字符集
unicharset_extractor zhi.normal.exp0.box
6.定义字体特征文件
font_properties.txt
我的是normal 0 0 0 0 0;
7、聚集字符特征
1) shapeclustering -F font_properties.txt -U unicharset zhi.normal.exp0.tr 注意:如果font_properties不加扩展名.txt,可能会报错
2) mftraining -F font_properties.txt -U unicharset -O zhi.unicharset zhi.normal.exp0.tr
使用上一步产生的字符集文件unicharset,来生成当前新语言的字符集文件chi.unicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符
特征数文件pffmtable。最重要的就是这个inttemp文件了,他包含了所有需要产生的字的图形原型。
3)cntraining zhi.normal.exp0.tr
8、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上zhi.
9.执行combine_tessdata zhi.
测试:
tesseract.exe E:\ChineseCharacterdata\answersheet_imgs\hanzi\zhi\img0035.jpg output -l zhi
测试通过。
- 纯记录,Tesseract-OCR 中文字符训练
- Tesseract-OCR 训练中文
- Tesseract-OCR 训练步骤记录
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别-样书训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别-样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- Tesseract-OCR 字符识别---样本训练
- 使用js获取session里的值
- 数位DP模板(感觉好神奇) 看大神的 不是自己写的
- Android开发环境的搭建
- C Primer Plus学习 三十九 类型限定词const
- Android自定义view组合控件解析
- 纯记录,Tesseract-OCR 中文字符训练
- maven学习随笔
- 高可用Hadoop平台-实战(电商网站的用户行为分析)
- qemu-kvm虚拟机与宿主机之间简单文件传输方法
- idl之指针
- 在Android Studio中进行单元测试和UI测试
- 虚拟化之QEMU与KVM
- 萌新瞎讲网络流之最大流【不定期更新理解篇】
- [读书笔记] 深入探索C++对象模型-第七章-站在对象模型的尖端(上)