汉字识别软件的难点所在
来源:互联网 发布:蚁群优化公式 编辑:程序博客网 时间:2024/04/25 17:02
英文识别有一些开放源码的软件,我看过的软件,主要采取两种识别方法:基于规则
的方法,和采用神经网络方法。而这两种方法,在识别汉字时,都不宜采用。因为汉字数
目众多,最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法,需要对
三千多个汉字,逐一人工写出分类规则,工作量太大,我一个人无法完成;如果采用神经
网络的方法,这么多汉字,我不敢想象,需要多少层网络和神经节点呀!如果采用网格法,
抗位移的效果太差;而采用不变矩法,识别人和入,土和士,相似度又难于控制。除此之
外,汉字切分也是一大难题。英文宽度大概只有汉字一半,标点符号大概只有汉字三分之
一宽,数字大概只有四分之一的宽度。而汉字本身又有二分字,和三分字。某些字,如“啊”,
字体小时可能是独体字,字体大些,变为二分字,字体再大,又变为三分字。加上汉字与
汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚
至比汉字识别模块的算法还要复杂得多。为了克服这些难点,并加快识别速度,我在算法
设计时,采用了一些优化和简化的策略。经过实践检验,证明行之有效。
Mini Ocr进行汉字识别的策略:
1) 采用复合特征的分类方法。
2) 字符集选择3755个一级汉字。
3) 字体选择最常用的宋体。
4) 字号选择从小五号到一号汉字,主要针对20个点之内的小字体。
5) 英汉混排时,汉语优先。
6) 汉字粘连时,进行动态优化切分。
- 汉字识别软件的难点所在
- 软件测试的难点
- 嵌入式软件开发的难点
- 识别汉字的方法
- OCR汉字识别的测试
- 人脸识别难点
- 远场语音识别的技术难点分析
- 查找某个软件所在目录的方法
- 修改版软件的魅力所在
- itunes下载的软件所在目录
- 软件版本的识别
- 微软语音识别的汉字集
- java汉字 字母 数字等的识别
- 汉字识别的最小矩阵大小
- c#中识别出汉字的方法
- 解决Python 不识别汉字的问题
- iOS简单的手写汉字识别
- 基于Caffe的HWDB手写汉字识别
- 人肉搜索、人肉语言及人肉程序设计
- 14.2 U-Boot分析
- XML的读写
- 提供一个Windows mobile Native UI 程序,循序渐进开发,并附有代码!
- FastDFS 分布式存储
- 汉字识别软件的难点所在
- http://blog.befly.cn
- 实现java程序的自动休眠 类似QQ的自动离线
- 搁浅的Python
- 《深入理解计算机系统》 第七章 链接
- CheckStyle配置修改意见
- PHP读取MSSQL数据出现乱码的问题
- 网站的最大并发连接数
- ora-01033问题解决