如何使用OCR识别控件LEADTOOLS OCR增强Google Drive搜索

来源:互联网 发布:淘宝客导购网站源码 编辑:程序博客网 时间:2024/06/06 01:04

Google Drive是一项非常不错的云储存服务,通过这项服务,用户可以储存,组织和共享文档、照片和视频文件等,但是TIFF和其他光栅图像文件格式却很容易丢失。为了很好地解决文件丢失的问题,开发人员可以使用LEADTOOLS OCR SDK提取文本,然后将文本添加到每个项目的IndexableTextData。接下来,便可以类似方式在基于文本的文档,如DOC或者PDF文件中搜索光栅图像文件。

例如,我们上传了四个普通TIFF文件到Google Drive,每个文件分别命名为OCR1,OCR2,OCR3和OCR4,因此,仅具有基于文件名的搜索功能完全没有任何帮助。

OCR识别控件LEADTOOLS OCR在Google Drive上的应用

用我们看来,这些图像就是文本,但是对于Google Drive而言,它却将这些图像看作光栅数据,并且在我们试图搜索扫描文档的内部时,无返回。

OCR识别控件LEADTOOLS OCR在Google Drive上的应用

难道谷歌就没有办法搜索你的文档?幸运的是,Google Drive会一直挂起,并且在执行文本搜索时,使用每个文档中可自定义的“IndexableTextData” 元数据。在接下来的例子中,我们一起来看看如何在不修改原始图像的情况下,使用Google Drive查找基于文本内容的TIFF文档。

连接到Google Drive

启动Google Drive API来检索ClientID和ClientSecret。因为,当使用 Google Drive API上传和修改TIFF文档时,需要使用到这些属性。接下来,下载 Google Client Library到引用中。

在本示例中,我们将打开WebBrowser控件中的User Authorization Uri,使用户可以输入自己的用户名和密码。用户登录以后,我们可以从WebBrowser控件的标题中获取授权码,然后我们就可以搜索所有账户中的TIFF文件。

OCR识别控件LEADTOOLS OCR在Google Drive上的应用

OCR识别控件LEADTOOLS OCR在Google Drive上的应用

使用LEADTOOLS OCR

最后,使用LEADTOOLS OCR引擎来获取TIFF文件的文本信息。创建IOcrEngine和IOcrDocument后, RecognizeText函数将返回一串从页面中提取的文本字符串,然后更新Google Drive中的IndexableTextData元数据。

OCR识别控件LEADTOOLS OCR在Google Drive上的应用

OCR识别控件LEADTOOLS OCR在Google Drive上的应用

接下来,在Google Drive中搜索TIFF文档,结果显示如下:

OCR识别控件LEADTOOLS OCR在Google Drive上的应用


此文应用原文出自:http://www.leadtools.com/downloads/InstantDownload.asp?download=/whitepapers/2013/using-leadtools-ocr-to-enhance-google-drive-search.pdf

原创粉丝点击