纯记录,Tesseract-OCR 中文字符训练

来源:互联网 发布:win7网络没有本地连接 编辑:程序博客网 时间:2024/05/19 18:00

参考了很多网上分享的东西,首先感谢他们。

由于最近有需求需要使用Tesseract-OCR来识别手写字符,开源的好像就好些了。

后面直接进入正题,直接说训练。

有部分网上说,要把图片转变成tif格式才来训练,其实jpg也是ok的,测试通过。

我操作的步骤如下:

1.将准备好的jpg或tif格式的图片(其他格式的尚未测试),通过jTessBoxEditor合并成一个tif格式文件。


2.生成.box文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 -l chi_sim batch.nochop makebox
保证tif文件与box文件在同一目录下

3.文字校正:使用jTessBoxEditor来处理。


4.产生字符特征文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 nobatch box.train


5.计算字符集
unicharset_extractor zhi.normal.exp0.box


6.定义字体特征文件
font_properties.txt
我的是normal 0 0 0 0 0;

7、聚集字符特征
   1) shapeclustering -F font_properties.txt -U unicharset zhi.normal.exp0.tr   注意:如果font_properties不加扩展名.txt,可能会报错
   2) mftraining -F font_properties.txt -U unicharset -O zhi.unicharset zhi.normal.exp0.tr
   使用上一步产生的字符集文件unicharset,来生成当前新语言的字符集文件chi.unicharset。同时还会产生图形原型文件inttemp和每个字符所对应的字符
   特征数文件pffmtable。最重要的就是这个inttemp文件了,他包含了所有需要产生的字的图形原型。 
   3)cntraining zhi.normal.exp0.tr
   
   
8、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上zhi.


9.执行combine_tessdata zhi.


测试:

tesseract.exe E:\ChineseCharacterdata\answersheet_imgs\hanzi\zhi\img0035.jpg output -l zhi

测试通过。

0 0