程序博客网 > 密度板的甲醛知乎

Tesseract-OCR 训练自己的中文字库

来源：互联网发布：密度板的甲醛知乎编辑：程序博客网时间：2024/05/02 02:11

先接到需求要做字符识别，故百度查询资料后，决定通过Tesseract-OCR来实现！虽然Tesseract-OCR也可以通过网上下载中文字库进行识别！但是由于识别效果不是很理想，所以决定根据所需要的识别的内容训练字库！网上说字库的训练最好在Tesseract-OCR的安装目录下进行，本人Tesseract-OCR的安装目录位于D:\Program Files\Tesseract-OCR。先将步骤整理如下：

1.运行cmd,进入d盘 d:

2.进入Tesseract-OCR文件夹的安装目录 cdProgram Files\Tesseract-OCR

3.通过jTessBoxEditor软件生成tif格式的文件（Tools -> Merge TIFF->选择要合并的图片->保存为.tif图片文件）

4.生成BOX文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox

4.1生成chi.myself.exp0.box文件后，需要使用jTessBoxEditor软件对其进行识别纠正！这部分很重要，等有时间再进行补充.......

4.2如果已经有中文字库，那么在makebox的时候可以使用中文字库，那样得到的.box文件就会有大部分是可以识别出来的，只需添加一个参数：tesseract.exe chi.myself.exp0.tif chi.myself.exp0-l chi_sim batch.nochop makebox

5.生成.tr文件 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train

6.生成unicharset文件 unicharset_extractor chi.myself.exp0.box

7.新建font_properties文件内容 myself 0 0 0 0 0

8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr

9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr

10.cntraining.exe chi.myself.exp0.tr

11.重命名把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上myself.

12.combine_tessdata myself.

13.现在即可将生成的字库拷贝到tessdata文件夹中使用！

注：

A.tesseract-ocr版本为3.02.02 + VS2013

0 0

密度板的甲醛知乎

密度板的甲醛知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子欧时力衣服什么档次欧时力属于国内几线品牌欧士利赫基国际集团旗下品牌 only是什么牌子 nuolo是什么手机牌子英国脱欧正式宣布时间 2019英国脱欧正式宣布时间 2019款欧蓝德上市时间黄金欧盘开盘时间欧韵橱柜欧能达羊奶欧达可美欧达热水器欧昵雪欧普拉欧普风格欧普燃气灶欧普橱柜欧普标志欧普吊灯欧普led灯泡欧普厨卫电器欧普台灯怎么样欧普led吸顶灯欧普led射灯价格欧普照明节能灯泡欧普卫生间灯欧普客厅灯价格图片欧普led吊顶灯欧普装饰灯欧普led灯价格欧普照明灯具客厅灯欧普吸顶灯客厅灯欧普风扇灯欧普照明客厅灯图片欧普庭院灯欧普照明风扇灯欧普卧室灯欧普led灯欧普照明护眼灯