Tesseract-OCR 验证码训练
来源:互联网 发布:梁治平知乎 编辑:程序博客网 时间:2024/05/19 00:09
训练步骤
1.Merge样本文件打开jTessBoxEditor,Tools->Merge TIFF,将样本文件全部选上,并将合并文件保存为num.font.exp0.tif
2.生成BOX文件
打开命令行并切换至num.font.exp0.tif所在目录,输入,生成文件名为num.font.exp0.box
tesseract num.font.exp0.tif num.font.exp0 batch.nochop makebox
3.定义字符配置文件
在目标文件夹内生成一个名为font_properties的文件,内容为
font 0 0 0 0 0
4.字符矫正
打开jTessBoxEditor,BOX Editor -> Open,打开num.font.exp0.tif
5.在目标目录下生成一个批处理文件
rem 执行改批处理前先要目录下创建font_properties文件
echo Run Tesseract for Training..
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train
echo Compute the Character Set..
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset num.font.exp0.tr
echo Clustering..
cntraining.exe num.font.exp0.tr
echo Rename Files..
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
echo Create Tessdata..
combine_tessdata.exe num.
echo. & pause
6.box合并,
首先合并tif文件,例如:第一次100个并且已经生成box文件
使用第一个合并的tif文件,加上最新的文件50个,即150个,合并后执行操作2.此时生成150个未纠正的box
,此时使用jTessBoxEditor打开tif文件,然后将第一次100个纠正好的box文件内容直接复制到未纠正的150个
box里,然后就可以进行纠正,只不过最后未纠正的都是纠正的最后一个。
阅读全文
0 0
- Tesseract-OCR 验证码训练
- tesseract-ocr破解 验证码
- tesseract-ocr训练方法
- Tesseract-OCR训练笔记
- tesseract-ocr训练方法
- tesseract-ocr训练
- tesseract-ocr训练步骤
- tesseract-ocr训练方法
- tesseract-ocr训练方法
- tesseract-ocr训练方法
- Tesseract-OCR 训练中文
- [python]Tesseract OCR训练
- Tesseract-OCR ---样本训练
- Tesseract-ocr训练字库
- tesseract-OCR字库训练
- tesseract-ocr 提高验证码识别率手段之---识别码库训练方法
- tesseract-ocr 提高验证码识别率手段之---识别码库训练方法
- 使用tesseract-ocr进行简单的验证码识别和训练
- 习题6.4
- Java中super的作用
- Python操作LDAP报错: require authentication', 'desc': 'Strong(er) authentication required'
- Hbase官方手册-配置
- 最大平均值子数组-LintCode
- Tesseract-OCR 验证码训练
- 高亮显示+删除
- DataNode没有正常启动
- idea中vue文件内嵌sass/scss片段提示语法错误
- C语言
- Android开发人员的自我定位
- 每日一练 20171109
- -TEST Fin 1 for NOIP 垃圾电脑(300-300)
- CSS伪元素