jTessBoxEditor使用

来源：互联网发布：怎么检查网络被盗用编辑：程序博客网时间：2024/05/18 19:40

第一次使用CSDN写笔记，有点小鸡冻~作为一名新手，第一次不能**低调！**so~~~开启我的人工智障之路吧~蛤~~~

OK！废话不多说，先说一下今天的主题jTessBoxEditor，这个东西是用来训练一个叫做teesseract智能图片识别软件的训练框架，他的包可以去官网下载~官网自行百度~现在直奔主题!

现在先测试一下teesseract的字符识别情况吧，这个软件没有可视化界面，所以只能用CMD这种黑不溜秋的东西来启动。
1.首先我制作了两张图片，一张是中文的，一张是英文的。
中文图片
这是英文图片
2.进入图片所在的文件路径，打开cmd，快捷方式shift+鼠标右键：在此处打开命令行XXX
输入命令：tesseract chi_sm.png result -l chi_sim
格式的意思是：软件图片名识别结果保存为result.txt -l表示选择语言最后是语言
这里写图片描述

现在看到结果，除了等号，其他都OK！
3.再来试试英文识别吧~~~还是同样的命令格式，走起~

这次也成功了~
那么问题来了，等于号怎么会识别有差呢~我们再来试试其他的图片
，这次我去zha度找了一张身份证模糊照来实验。
这里写图片描述
现在我们需要识别这张图片的所有中文。Let’s Go!注意下，有些版本的teesseract是不能识别.jpg格式文件的，具体要看官方文档是否表明芝慈不。不支持就用画图软件转一下格式。

悲剧出现了，识别为空，所以软件的识别率跟他的识别库很有关系啊！好！(╥╯^╰╥)
现在试行人工智能训练~

*******************************华丽分割线*********************************

在此附上传送带jTessBoxEditor的下载连接http://www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
这个不需要安装，直接解压即可，不过要事先安装一个jar包jdk-8u101-windows-x64.exe，自行摆渡~否则软件不能正常运行。在进行训练之前还有几个小步骤：

1.将图片转换成tif格式，用于后面生成box文件。可以通过画图，然后另存为tif即可。
更改图片名字，这个是有要求的=。=
tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 mjorcen字体名normal
那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。
2.生成box文件，CMD命令：
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox
这里生成的box是存储这图片文字的识别位置参数，如果没有识别出任何文字，里面应该是空的，不信的可以用记事本方式打开。顺表可以随手添加几个数据，分别是字体坐标，和文字宽高，还有图片序号，因为这里只有一张图片，所以我最后就写0
这里写图片描述
3.打开软件，先导入tif文件，然后它会自动识别你的box文件并自动导入，
如果导入后Char下面为乱码，可以在setting那里修改字体，我选宋体，然后点击reload，然后字体不见了，不要紧，打不了重新再输入一下字体。
这里写图片描述
调节完成后就可以生成训练库了，所谓的人工智能就是由一个个训练库来实现，机器记录千百万条数据，实现假智能，真智障，开玩笑啦，其实人工智能目前真的是大热门！随便上街就能找工作。
目前市面上的机器训练都是批量的自动训练，不会像我这样智障训练。
运行下面的命令生成txt文件和数据文件
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
unicharset_extractor mjorcen.normal.exp0.box

之后把生成的库文件复制到C:\Program Files (x86)\Tesseract-OCR\tessdata即可~好了，睡觉

阅读全文

0 0