汉字识别软件的难点所在

来源：互联网发布：蚁群优化公式编辑：程序博客网时间：2024/04/25 17:02

英文识别有一些开放源码的软件，我看过的软件，主要采取两种识别方法：基于规则
的方法，和采用神经网络方法。而这两种方法，在识别汉字时，都不宜采用。因为汉字数
目众多，最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法，需要对
三千多个汉字，逐一人工写出分类规则，工作量太大，我一个人无法完成；如果采用神经
网络的方法，这么多汉字，我不敢想象，需要多少层网络和神经节点呀！如果采用网格法，
抗位移的效果太差；而采用不变矩法，识别人和入，土和士，相似度又难于控制。除此之
外，汉字切分也是一大难题。英文宽度大概只有汉字一半，标点符号大概只有汉字三分之
一宽，数字大概只有四分之一的宽度。而汉字本身又有二分字，和三分字。某些字，如“啊”，
字体小时可能是独体字，字体大些，变为二分字，字体再大，又变为三分字。加上汉字与
汉字之间的粘连、汉字与英文的混排，英文与英文的粘连，造成汉字切分模块的算法，甚
至比汉字识别模块的算法还要复杂得多。为了克服这些难点，并加快识别速度，我在算法
设计时，采用了一些优化和简化的策略。经过实践检验，证明行之有效。

Mini Ocr进行汉字识别的策略：
1) 采用复合特征的分类方法。
2) 字符集选择3755个一级汉字。
3) 字体选择最常用的宋体。
4) 字号选择从小五号到一号汉字，主要针对20个点之内的小字体。
5) 英汉混排时，汉语优先。
6) 汉字粘连时，进行动态优化切分。