jTessBoxEditor使用

来源:互联网 发布:怎么检查网络被盗用 编辑:程序博客网 时间:2024/05/18 19:40
第一次使用CSDN写笔记,有点小鸡冻~作为一名新手,第一次不能**低调!**so~~~开启我的人工智障之路吧~蛤~~~

OK!废话不多说,先说一下今天的主题jTessBoxEditor,这个东西是用来训练一个叫做teesseract智能图片识别软件的训练框架,他的包可以去官网下载~官网自行百度~现在直奔主题!

现在先测试一下teesseract的字符识别情况吧,这个软件没有可视化界面,所以只能用CMD这种黑不溜秋的东西来启动。
1.首先我制作了两张图片,一张是中文的,一张是英文的。
中文图片
这是英文图片
2.进入图片所在的文件路径,打开cmd,快捷方式shift+鼠标右键:在此处打开命令行XXX
输入命令:tesseract chi_sm.png result -l chi_sim
格式的意思是:软件 图片名 识别结果保存为result.txt -l表示选择语言 最后是语言
这里写图片描述
这里写图片描述
现在看到结果,除了等号,其他都OK!
3.再来试试英文识别吧~~~还是同样的命令格式,走起~
这里写图片描述
这次也成功了~
那么问题来了,等于号怎么会识别有差呢~我们再来试试其他的图片
,这次我去zha度找了一张身份证模糊照来实验。
这里写图片描述
现在我们需要识别这张图片的所有中文。Let’s Go!注意下,有些版本的teesseract是不能识别.jpg格式文件的,具体要看官方文档是否表明芝慈不。不支持就用画图软件转一下格式。
这里写图片描述
悲剧出现了,识别为空,所以软件的识别率跟他的识别库很有关系啊!好!(╥╯^╰╥)
现在试行人工智能训练~

*******************************华丽分割线*********************************

在此附上传送带jTessBoxEditor的下载连接http://www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
这个不需要安装,直接解压即可,不过要事先安装一个jar包jdk-8u101-windows-x64.exe,自行摆渡~否则软件不能正常运行。在进行训练之前还有几个小步骤:

1.将图片转换成tif格式,用于后面生成box文件。可以通过画图,然后另存为tif即可。
更改图片名字,这个是有要求的=。=
tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 mjorcen字体名normal
那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。
2.生成box文件,CMD命令:
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox
这里生成的box是存储这图片文字的识别位置参数,如果没有识别出任何文字,里面应该是空的,不信的可以用记事本方式打开。顺表可以随手添加几个数据,分别是字体坐标,和文字宽高,还有图片序号,因为这里只有一张图片,所以我最后就写0
这里写图片描述
3.打开软件,先导入tif文件,然后它会自动识别你的box文件并自动导入,这里写图片描述
如果导入后Char下面为乱码,可以在setting那里修改字体,我选宋体,然后点击reload,然后字体不见了,不要紧,打不了重新再输入一下字体。
这里写图片描述
调节完成后就可以生成训练库了,所谓的人工智能就是由一个个训练库来实现,机器记录千百万条数据,实现假智能,真智障,开玩笑啦,其实人工智能目前真的是大热门!随便上街就能找工作。
目前市面上的机器训练都是批量的自动训练,不会像我这样智障训练。
运行下面的命令生成txt文件和数据文件
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
unicharset_extractor mjorcen.normal.exp0.box

之后把生成的库文件复制到C:\Program Files (x86)\Tesseract-OCR\tessdata即可~好了,睡觉

阅读全文
0 0
原创粉丝点击