纯记录，Tesseract-OCR 中文字符训练

来源：互联网发布：win7网络没有本地连接编辑：程序博客网时间：2024/05/19 18:00

参考了很多网上分享的东西，首先感谢他们。

由于最近有需求需要使用Tesseract-OCR来识别手写字符，开源的好像就好些了。

后面直接进入正题，直接说训练。

有部分网上说，要把图片转变成tif格式才来训练，其实jpg也是ok的，测试通过。

我操作的步骤如下：

1.将准备好的jpg或tif格式的图片（其他格式的尚未测试），通过jTessBoxEditor合并成一个tif格式文件。

2.生成.box文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 -l chi_sim batch.nochop makebox
保证tif文件与box文件在同一目录下。

3.文字校正：使用jTessBoxEditor来处理。

4.产生字符特征文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 nobatch box.train

5.计算字符集
unicharset_extractor zhi.normal.exp0.box

6.定义字体特征文件
font_properties.txt
我的是normal 0 0 0 0 0；

7、聚集字符特征
1) shapeclustering -F font_properties.txt -U unicharset zhi.normal.exp0.tr 注意：如果font_properties不加扩展名.txt，可能会报错
2) mftraining -F font_properties.txt -U unicharset -O zhi.unicharset zhi.normal.exp0.tr
使用上一步产生的字符集文件unicharset，来生成当前新语言的字符集文件chi.unicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符
特征数文件pffmtable。最重要的就是这个inttemp文件了，他包含了所有需要产生的字的图形原型。
3)cntraining zhi.normal.exp0.tr

8、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上zhi.

9.执行combine_tessdata zhi.

测试：

tesseract.exe E:\ChineseCharacterdata\answersheet_imgs\hanzi\zhi\img0035.jpg output -l zhi

测试通过。

0 0