Tesseract-OCR 验证码训练

来源：互联网发布：梁治平知乎编辑：程序博客网时间：2024/05/19 00:09

训练步骤

1.Merge样本文件
打开jTessBoxEditor，Tools->Merge TIFF，将样本文件全部选上，并将合并文件保存为num.font.exp0.tif
2.生成BOX文件
打开命令行并切换至num.font.exp0.tif所在目录，输入，生成文件名为num.font.exp0.box
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
3.定义字符配置文件
在目标文件夹内生成一个名为font_properties的文件，内容为
font 0 0 0 0 0
4.字符矫正
打开jTessBoxEditor，BOX Editor -> Open，打开num.font.exp0.tif
5.在目标目录下生成一个批处理文件
rem 执行改批处理前先要目录下创建font_properties文件
echo Run Tesseract for Training..
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train
echo Compute the Character Set..
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
echo Clustering..
cntraining.exe num.font.exp0.tr
echo Rename Files..
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
echo Create Tessdata..
combine_tessdata.exe num.
echo. & pause

6.box合并，
首先合并tif文件，例如：第一次100个并且已经生成box文件
使用第一个合并的tif文件，加上最新的文件50个，即150个，合并后执行操作2.此时生成150个未纠正的box
，此时使用jTessBoxEditor打开tif文件，然后将第一次100个纠正好的box文件内容直接复制到未纠正的150个
box里，然后就可以进行纠正，只不过最后未纠正的都是纠正的最后一个。

阅读全文

0 0