如何提高扫描识别率

来源:互联网 发布:整人软件下载 编辑:程序博客网 时间:2024/05/16 14:04

Optical character recognition:光学字符识别技术,是电子设备检测打印在纸上的字符,并通过其亮暗模式来确定形状的方法,经扫描仪确定了字符的形状后,会使用字符识别方法将形状转换成计算机文本。 

  OCR(光学字符识别)是扫描仪在日常使用中的一个重要功能, 方便的OCR。自动识别技术使印刷体文字的录入最终摆脱键盘。但是在OCR识别过程中,往往会出现许多识别错误的情况,这是什么原因造成的?许多人认为是OCR识别软件很糟糕,其实情况并非如此。那么如何更好地提高OCR识别率,以减少人工修改的负担呢?下面将向您介绍笔者在使用中的几点经验。

  1. 选择高识别率的专业OCR软件。

  购买扫描仪时,附带的扫描软件中普遍都提供OCR识别软件,但是其识别率很难令人满意,所以一般应当购买和使用专业的OCR识别软件,如尚书的SH-OCR5.0等。

  2.在识别前一定要作版面分析和倾斜校正。

  以尚书OCR为例,其版面分析把文稿分为横排正文、竖排正文、表格和图形图像四种类型。在版面上按住鼠标左键沿对角线拖出一块矩形区域,并选择相应的类型。尚书OCR只对前三种类型作文字识别,对第四种类型和划定区域以外不作识别。尚书OCR允许文稿有细微的倾斜,但倾斜得太厉害了就要作倾斜校正。校正的方法是,按住鼠标右键拖出直线使之平行于倾斜的文本,这样,识别软件会自动地将文本放正。标准版的尚书OCR 提供了自动的版面分析和倾斜校正,但笔者发现,它对复杂的版面的分析往往不太准确,需要再作人工的矫正。

  3.充分使用识别软件的用户自学习功能。

  OCR识别软件内一般都含有用户自学习功能,如果个别字在扫描比较清楚的情况下,软件识别得不正确,就可以把这个字加到用户自定义库中,这样可以逐渐地提高识别的正确性。要提高OCR识别能力,在很大程度上取决于识别所用的图像质量,在尽可能的情况下应选择质量较高的图像进行OCR识别。要想获得较高的扫描识别率,用户应当不断进行尝试,找出一个适合OCR识别软件的扫描分辨率及扫描亮度以供参考。

  4.适当的扫描分辨率和亮度

  选择合适的扫描分辨率

  不求最"高",只求最"佳"。如果分辨率太高,扫描的时间将会大大增加,图形所需的空间也会成倍地增长;如果分辨率太低,给OCR软件的信息量不足,识别率就不会太高。根据经验,普通五号印刷体采用250~300dpi比较合适;若字号比较大(四号以上),用150~200dpi就足够了;如果是六号或七号字,就要考虑使用400~600dpi了。当然,这也不是绝对的,如果 印刷字迹比较模糊,或者笔划较多的识别文本,应适当提高扫描的分辨率。提供一个公式供参考:文件长度(字节)=[水平尺寸×垂直尺寸×扫描分辨率]/8

  设置合理的亮度。

  有一些印刷品会因纸质发黄或是有较多的油墨点而影响识别质量,因此在扫描时适当地调整亮度,使扫描文件黑白分明,有利于软件的识别。扫描亮度的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。对于扫描后图像存在黑点或黑斑时,应该适当减小亮度;如果当扫描后图像中汉字轮廓严重残缺时,则可以适当增加亮度。

  5.简繁混排和中英文混排的文稿在识别时往往会出问题。

  如果文稿中简繁/中英文是块状分布(即这几段为A文,另外几段为B文),则可以采用图形处理软件把块与块分开成独立的文件,然后分别打开,选择相应的语言,分别识别。《计算机光盘软件与应用》