Tesseract-OCR 验证码训练

来源:互联网 发布:梁治平知乎 编辑:程序博客网 时间:2024/05/19 00:09

训练步骤

1.Merge样本文件
打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存为num.font.exp0.tif
2.生成BOX文件
打开命令行并切换至num.font.exp0.tif所在目录,输入,生成文件名为num.font.exp0.box
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
3.定义字符配置文件
在目标文件夹内生成一个名为font_properties的文件,内容为
font 0 0 0 0 0  
4.字符矫正
打开jTessBoxEditor,BOX Editor -> Open,打开num.font.exp0.tif
5.在目标目录下生成一个批处理文件
rem 执行改批处理前先要目录下创建font_properties文件 
echo Run Tesseract for Training.. 
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train 
echo Compute the Character Set.. 
unicharset_extractor.exe num.font.exp0.box 
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr 
echo Clustering.. 
cntraining.exe num.font.exp0.tr 
echo Rename Files.. 
rename normproto num.normproto 
rename inttemp num.inttemp 
rename pffmtable num.pffmtable 
rename shapetable num.shapetable  
echo Create Tessdata.. 
combine_tessdata.exe num. 
echo. & pause

6.box合并,
首先合并tif文件,例如:第一次100个并且已经生成box文件
使用第一个合并的tif文件,加上最新的文件50个,即150个,合并后执行操作2.此时生成150个未纠正的box
,此时使用jTessBoxEditor打开tif文件,然后将第一次100个纠正好的box文件内容直接复制到未纠正的150个
box里,然后就可以进行纠正,只不过最后未纠正的都是纠正的最后一个。
原创粉丝点击