《教电脑识字：浅谈汉字识别》

来源：互联网发布：海康威视网络设置教程编辑：程序博客网时间：2024/04/30 21:15

实用印刷汉字识别系统的总体技术指标主要有如下各项：

1）识别的字符类总数

系统识别的字符类总数决定整个系统的识别容量。

我国1980年公布的国家标准GB 2312-80《信息交换用汉字编码字符集——基本集》（简称国标）中第一级常用汉字共有3755个，第二级有3008个，两级共有6763个汉字。目前常用的汉字操作系统一般也只包含这两级汉字。根据汉字综合频率表的统计结果，一级汉字使用频度已大于99.7％，二级汉字除约500汉字较经常使用外，其余的二级汉字和二级以外的汉字主要用于人名和地名，约有一两千字，这些字的使用频度比较均匀。我国台湾目前常用汉字为5401个汉字（繁体汉字）。

目前我国汉字识别系统所识别的汉字字符集，一般分为三级：第一级包括国标第一级汉字，即3755个汉字；第二级包括国标一、二级两级汉字，共6763个，或包括用于我国台湾的5401个汉字；第三级扩大至近万个汉字，识别汉字字符集的确定应根据需要和可能综合考虑。由于一级汉字的使用频度已达99.7％，因此，受系统资源的限制，扩大字符集对识别率的提高可能好处不大，但对计算机内存的要求会大大加重，识别速度也会显著下降。目前国内研制的系统主要以国标一级汉字为主，也可以适当增加一些较常用的二级汉字和专用汉字。

由于实际文本、杂志中，除汉字字符外，还包括标点符号、阿拉伯数字、英文字母等，尤其近来的报纸、科技书籍经常混有不少英文或其他外文字符，因此实用汉字识别系统的识别字符集内还应当包含这些字符集。具体字符集的规模和内容，可根据实际应用的需要仔细选用。

综上所述，实用汉字识别系统的识别字符集应由汉字、标点、符号、数字、英（其他外文）文字母等部分组成，字符总数在4000～8000之间。

2）识别的字体

我国常用的印刷字体大致分为宋、仿宋、黑、楷四大字体，各种字体还有许多较小的子类，如宋体字就有报宋、书宋、大标（题）宋、小标（题）宋、扁宋、长宋等字体；仿宋字体有老仿宋、新仿宋；黑体还有扁黑、长黑、粗黑、细黑之分；楷体又分正楷、长楷和扁楷；等等，因此常用字体总计有16种以上。只有对所有这些常见的多种印刷字体都能识别，才能真正解决印刷文本的自动输入问题。在设计多种字体印刷体汉字识别系统时，往往选用最常见的书宋、黑、仿宋和楷四种最主要字体，这些字体也是结构差别最大的四种字体。保证了这四大字体的高识别率，其他变化较小字体的识别问题也就基本上迎刃而解了。

通常把只能适应单一种字体的印刷汉字识别系统称为单字体印刷汉字识别系统。这种系统采用切换特征字典的方法来识别不同字体的印刷汉字。能用同一特征字典识别</PGN0100.TXT/PGN>多种字体（如同时识别宋、仿宋、黑、楷四种主要字体）的识别系统称为多字体印刷汉字识别系统。目前我国的印刷汉字自动输入大都是多字体汉字识别系统。这是因为：第一，我国的印刷资料大都采用各种字体和各种字号的汉字混合编排的，识别不同字体时要求人或系统自动切换相应的特征库是十分困难的、甚至是不可能的，出路只能是采用同一特征库来识别它们。第二，实践证明，采用单一特征库的多字体汉字识别系统不仅对字体的变化有很高的适应能力，而且对于字号的变化，以及印刷质量、扫描输入噪声也具有很高的应变能力。因此，真正解决印刷汉字识别系统的实用化，就必须解决多字体印刷汉字的识别问题，实现具有高度鲁棒性的，能适应实际印刷文本复杂变化的实用系统。

3）识别的字号

我国铅字的字号约有16种，从特大号直到7号字的大小比例相差约9.3倍。不同大小的汉字经常同时出现在同一文本中。不同字号的汉字，其大小差别较大，识别时必须对大小进行归一化。实践表明，能识别多种字体的汉字识别系统，具有较强的适应汉字字形结构变化的能力，从而也具有适应字号变化的能力。因此只要对不同字号汉字进行一定比例的归一化处理，原则上就可以解决所有字号汉字的识别问题。唯一还需要考虑的是，要有足够清晰度的扫描输入设备，保证提供足够清晰度的汉字图像点阵，以供识别之用。

4）识别率

这是系统最重要的指标。识别率分两种，一种是指被正确切分的汉字图像被正确识别的概率，称单字识别率，另一种是识别结果相对原始文本而言的正确识别的概率，称为系统识别率。从原始文本到识别结果输出，中间要经过扫描输入、行切割、字切割，然后才进行单字识别，中间各步都有可能影响识别率，尤其是字“切割”这一步往往容易发生切分错误，造成字符的误识。因此，系统误识概率主要包括切分错误和单字识别错误。实验表明，由于文本印刷的复杂性，切分错误造成的误识有时甚至会超过单字识别产生的错误。这告诉我们，除了努力提高单字识别率外，还要花大力气提高文本字切割的质量，保证最终系统识别率的提高。

汉字识别系统的识别率是和印刷文字的质量密切相关的，而且好坏差别较大。也就是说，没有统一的印刷文字质量标准是难以进行系统识别率比较的。

影响印刷文字质量的主要因素有：

①印刷文字产生方式的不同造成汉字的质量差异。我国常用的印刷方式有铅印、胶印、激光打印、油印和计算机点阵式打印机打印等。不同方式的汉字不仅形状有较大差异，而且印字质量相差也很悬殊。铅印、激光打印的印刷文字质量较好，边缘轮廓清晰、笔画完整；胶印次之；最差的是油印和传真机打印输出的文字，笔画边缘模糊，笔画往往有残缺或粘连。这两种文字目前很难用一般印刷汉字识别系统来识别。因此，在论及汉字识别系统的识别率时，一定要对被识别印刷文字的印刷方式加以明确限定，因为它是影响识别率的重要因素之一。

②印刷文本纸张质量的影响。纸张质量和纸张的密质程度（紧度）、白净程度（白度）、光洁度和不透明度等有关。纸张的质量直接影响到印刷体文字的识别率。对汉字识别来说，对印刷纸张应有一定的要求，以保证汉字识别的质量。

为了对汉字识别系统的识别率进行比较，一般应选定一定印刷方式、一定纸张质量、同样印刷文字质量的文字进行识别测试，或采用统一的文字数据文件进行识别测量，所得识别率才有进行比较的意义。另一方面，这也说明了，为了推广汉字识别系统的应用，也应对上述两方面内容制定相应的标准和规范，使汉字识别系统的设计和应用都有所依据。这项工作需要各方面的配合，也是十分重要的工作。

实用汉字识别系统在正常识别条件下的单字识别率应达到98%～99％以上，系统识别率也应在95%～96％以上，才有实际使用价值。

5）识别速度

汉字识别速度分单字识别速度和系统识别速度两种。

单字识别速度可以是从汉字特征提取到识别结果输出所需的单位时间内识别的字数，也可以是从行切割到识别结果输出的单位时间内识别的字数，这两种一般都称为单字识别速度。另一种是以从文本扫描输入开始，直到识别结果输出所需的时间为标准，这样计算出的单位时间内平均识别的字数，称为系统识别速度。作为系统真正的效益是由系统识别速度最终体现出来的，它应作为系统真正追求的目标。

识别速度和正确识别率是一对矛盾。这是因为，要获得高的正确识别率，一般必须采取较复杂的特征和匹配算法，</PGN0103.TXT/PGN>并花费较多的计算代价，因而会使识别速度有所下降。因此系统设计时必须综合考虑两者：一般是把高正确识别率的要求放在首位，在缺乏高识别率的前提下提高速度的意义是不大的。这是因为，由于错识字符的纠错要花费时间，也会将系统识别速度降下来。

目前单字体印刷汉字识别系统的单字识别速度在386微机上可达到10～20字／秒，多字体印刷汉字识别系统可达5～10字／秒，利用部分专用硬件，识别速度可达30～70字／秒以上。

6）系统配置的代价

作为实用系统，除了性能指标以外，还必须有经济指标。要尽量降低系统价格，才能易于推广使用。目前国内研制的汉字识别系统都是建立在微型计算机的基础上，用软件实现的。系统配置代价较低，性能受到一定的限制。随着汉字OCR的不断推广，今后对其性能（特别是识别率和识别速度）将会更高的要求，如何妥善做好系统配置，使其具有较高的性能／价格比是一个应该研究的问题。