文字识别软件

来源:互联网 发布:绘制电气图软件 编辑:程序博客网 时间:2024/04/19 12:07

  文字识别软件和word、ppt、excel同样重要。

  说这样的话绝不是瞎话,而是用事实在说话。

  一、文字识别简介

  OCR是英文Optical Character Recognition的缩写,中文意思是光学字符识别,这种技术就是能够把图片上的文字信息自动识别并且录入到电脑当中,并且最关键的一点,与扫描搭配才能发挥出OCR识别的核心技术,属于非键盘输入范畴,目前我们谈到OCR主要特指的就是文字识别软件,OCR技术的迅速发展与扫描仪的广泛使用是密不可分的。文字识别软件已经成为绝大多数扫描仪用户的得力助手。

  二、文字识别原理

  通俗的来讲,OCR的基本原理就是通过扫描仪将一份纸质文稿扫描成为一份电子图像输入给计算机,然后经过OCR的处理之后把图像中的文字识别出来。也就是说扫描仪只负责图像的扫描。我们逐步来看一下OCR在识别文字时的几个步骤。

  (1)加载图像

  通过扫描仪这样的输入设备,将纸质文档变成电子图像输入到计算机当中,也就是实现原稿的数字化。目前来看,最常用的输入设备为扫描仪,因其生成的图像质量较高,便于OCR引擎识别。所以这里不得不提的是扫描仪分辨率及相关参数的设置,合适的参数调整,是为了保证文字清楚、特征不丢失。并且在原稿通过扫描仪扫描之前,尽可能的放置端正,以保证预处理检测的倾斜角小,在进行倾斜校正后,文字图像的变形就小。主意到这些细节,会使得文字识别软件输出的文字准确率更高。

  (2)图像预处理

  在我们肉眼看来,扫描仪生成图像后,直接给到OCR,然后就输出识别结果了。其实在真正的识别之前,有一步工作是对图像的预处理。专业的讲就是把每一个文字图像分检出来交给识别模块识别。包括了图像的去噪,图像的倾斜校正,图像的版面分析,对分析到的文字区域进行合理排版,对文字区域进行切分等等。这个阶段的工作非常的重要,直接影响了文字识别的准确率。

  (3)单字识别

  单字识别是体现OCR文字识别的核心技术。从扫描文本中分检出的文字图像,由计算机将其图形、图像转变成文字的标准代码,是让计算机“认字”的关键,也就是所谓的识别技术。就像人脑认识文字是因为在人脑中已经保存了文字的各种特征,如文字的结构、文字的笔画等。要想让计算机来识别文字,也需要先将文字的特征等信息储存到计算机里,但要储存什么样的信息及怎样来获取这些信息是一个很复杂的过程,而且要达到非常高的识别率才能符合要求。通常采用的做法是根据文字的笔画、特征点、投影信息、点的区域分布等进行分析。

  中国常用的汉字就有几千,识别技术就是特征比较技术,通过和识别特征库的比较,找到特征最相似的字,提取该文字的标准代码,即为识别结果。

  (4)识别后处理

  后处理是指对识别出的文字或多个识别结果采用词组方式进行上下匹配,即将单字识别的结果进行分词,与词库中的词组进行比较,以提高系统的识别率,减少误识率。

  三、文字识别技巧

  虽然目前OCR识别技术已经得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。但是想要快速的获取正确的扫描结果,得到高效率的文字录入,必须认真学习有关知识,结合实践经验,摸索总结出自己的全套解决方案。有事我们在用文字识别软件工作时识别率非常低,根本达不到软件所说的95%以上,请先不要责怪硬件或软件,其实这是没有掌握好扫描以及OCR识别技巧的原因。

  下面是文字识别软件操作中常用的一些方法和技巧。

  (1)扫描仪分辨率的设置一般设为300dpi或400dpi,适合大部分文档扫描识别。

  (2)扫描时适当的调整好亮度和对比度值,使扫描文件黑白分明。

  (3)选用已经和扫描仪集成匹配好的文字识别软件,不要单独配备扫描仪,在这里

  推荐奥普思凯科技 快档通标准版。这款软件是软硬一体化设计的,不用单独 选型。因为OCR软件不能兼容所有的扫描仪,并且用文字识别软件自身的扫描 接口扫描出来的图像便于处理。文字识别软件链接

       

  四、总结

  生活的节奏不断的加快,工作的节奏其实更快。日常办公中需要我们快速响应,为了让各个部门能想火车前进一样有效协作,就必须有办公化的利器。文字识别软件一定是现代化办公必不可少的工具软件。

1 0