jTessBoxEditor使用
来源:互联网 发布:怎么检查网络被盗用 编辑:程序博客网 时间:2024/05/18 19:40
第一次使用CSDN写笔记,有点小鸡冻~作为一名新手,第一次不能**低调!**so~~~开启我的人工智障之路吧~蛤~~~
OK!废话不多说,先说一下今天的主题jTessBoxEditor,这个东西是用来训练一个叫做teesseract智能图片识别软件的训练框架,他的包可以去官网下载~官网自行百度~现在直奔主题!
现在先测试一下teesseract的字符识别情况吧,这个软件没有可视化界面,所以只能用CMD这种黑不溜秋的东西来启动。
1.首先我制作了两张图片,一张是中文的,一张是英文的。
2.进入图片所在的文件路径,打开cmd,快捷方式shift+鼠标右键:在此处打开命令行XXX
输入命令:tesseract chi_sm.png result -l chi_sim
格式的意思是:软件 图片名 识别结果保存为result.txt -l表示选择语言 最后是语言
现在看到结果,除了等号,其他都OK!
3.再来试试英文识别吧~~~还是同样的命令格式,走起~
这次也成功了~
那么问题来了,等于号怎么会识别有差呢~我们再来试试其他的图片
,这次我去zha度找了一张身份证模糊照来实验。
现在我们需要识别这张图片的所有中文。Let’s Go!注意下,有些版本的teesseract是不能识别.jpg格式文件的,具体要看官方文档是否表明芝慈不。不支持就用画图软件转一下格式。
悲剧出现了,识别为空,所以软件的识别率跟他的识别库很有关系啊!好!(╥╯^╰╥)
现在试行人工智能训练~
*******************************华丽分割线*********************************
在此附上传送带jTessBoxEditor的下载连接http://www.softpedia.com/get/Multimedia/Graphic/Graphic-Others/jTessBoxEditor.shtml
这个不需要安装,直接解压即可,不过要事先安装一个jar包jdk-8u101-windows-x64.exe,自行摆渡~否则软件不能正常运行。在进行训练之前还有几个小步骤:
1.将图片转换成tif格式,用于后面生成box文件。可以通过画图,然后另存为tif即可。
更改图片名字,这个是有要求的=。=
tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言 fontname是字体
比如我们要训练自定义字库 mjorcen字体名normal
那么我们把图片文件重命名 mjorcen.normal.exp0.jpg在转tif。
2.生成box文件,CMD命令:
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox
这里生成的box是存储这图片文字的识别位置参数,如果没有识别出任何文字,里面应该是空的,不信的可以用记事本方式打开。顺表可以随手添加几个数据,分别是字体坐标,和文字宽高,还有图片序号,因为这里只有一张图片,所以我最后就写0
3.打开软件,先导入tif文件,然后它会自动识别你的box文件并自动导入,
如果导入后Char下面为乱码,可以在setting那里修改字体,我选宋体,然后点击reload,然后字体不见了,不要紧,打不了重新再输入一下字体。
调节完成后就可以生成训练库了,所谓的人工智能就是由一个个训练库来实现,机器记录千百万条数据,实现假智能,真智障,开玩笑啦,其实人工智能目前真的是大热门!随便上街就能找工作。
目前市面上的机器训练都是批量的自动训练,不会像我这样智障训练。
运行下面的命令生成txt文件和数据文件
tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train
unicharset_extractor mjorcen.normal.exp0.box
之后把生成的库文件复制到C:\Program Files (x86)\Tesseract-OCR\tessdata即可~好了,睡觉
- jTessBoxEditor使用
- jTessBoxEditor说明
- 5 Tesseract-ocr 系列 : 使用 jTessBoxEditor,结合 tesseract-ocr-3.4 进行训练、识别
- jtessboxeditor 中文乱码
- jTessBoxEditor训练验证码图片
- jTessBoxEditor训练验证码图片
- tesseract 和jtessboxeditor 训练文字
- jTessBoxEditor训练3500常用汉字
- 将jTessBoxEditor训练的字库合并
- 用jTessBoxEditor自动训练3500常用汉字
- 如何通过jTessBoxEditor进行Tesseract3.02.02样本训练
- 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练
- Linux下利用jTessBoxEditor工具进行Tesseract3.02.02样本训练
- 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练
- 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高识别率
- 利用jTessBoxEditor工具进行Tesseract3.02样本训练,提高识别率
- 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率
- 3 Tesseract-ocr 系列 : 安装 jTessBoxEditor,结合tesseract-ocr-3.4 训练
- 2132-数据结构实验之栈与队列二:一般算术表达式转换成后缀式
- OpenGL绘制正四面体
- 访问本地Tomcat服务器 localhost/127.0.0.1:8080/web_app/xx- Connection refused
- 2133-数据结构实验之栈与队列三:后缀式求值
- 树形结构地柜查询子节点
- jTessBoxEditor使用
- 2134-数据结构实验之栈与队列四:括号匹配
- angular2如何识别字符串中的html标签,并按照html来显示视图
- c++ 三目运算符
- 3333-数据结构实验之栈与队列五:下一较大值(一)
- hive中的NULL(hive空值处理)
- #每天一点R语言# 简单运算
- ACM复习(2)1078 破密
- http 协议 基础