tesseract验证码训练部骤

来源:互联网 发布:淘宝怎样退换货 编辑:程序博客网 时间:2024/06/04 18:36
先简单记录下,以后再详细


1、使用jTessBoxEditor将验证码jpg文件merge tif合并成一个tif


2、生成box
tesseract eng.ver.exp0.tif eng.ver.exp0. -psm 7 -l eng batch.nochop makebox


3、使用jTessBoxEditor对box文件对比tif一个个字符校正


4、生成.tr训练文件
tesseract.exe eng.ver.exp0.tif eng.ver.exp0 -psm 7 nobatch box.train


3、新建文件font_properties,内容为ver 0 0 0 0 0 ,其中ver为上面的文件名第二个字段即字体名,需保存为无BOM的UTF8文件。
unicharset_extractor eng.ver.exp0.box


4、定义字体特征文件
mftraining.exe -F font_properties -U unicharset


5、完成训练
cntraining.exe eng.ver.exp0.tr
会产生5个文件:
inttemp
normproto
pffmtable
shapetable
unicharset


6、将以上文件改名,加上前缀selfverify.,注意有一点.,然后合并成为selfverify.traineddata文件
combine_tessdata.exe selfverify.


7、拷贝生成的selfverify.traineddata到tessdata目录


8、测试训练成果
tesseract test.jpg test -psm 7 -l selfverify


但本人测试却无法解析,不知道为何- -!待解决中。。。
0 0
原创粉丝点击