扫描版PDF转文本的方法

来源:互联网 发布:微信免签约接口源码 编辑:程序博客网 时间:2024/05/16 18:25

PDF转文本文件的最简单方法

有很多是用扫描仪扫进去然后做成的caj文件或pdf文件

这样就没法用选定文本的方式来复制、粘贴了。很郁闷!!

有没有办法将这些图片格式的文本转成真正的文本呢,当然有!

需要的软件就是鼎鼎大名的office 2003

1.用Adobe Reader 或者是CajViewer打开所要转的文件

2.工具栏里选文件->打印.一般安装了office 2003之后就安装一个虚拟打印机(Microsoft office Document imaging),然后选择这个虚拟打印机.选打印全部点确定

3.之后选择文件保存路径,这个文件是mdi格式的,打印完后Microsoft office Document imaging会自动打开你刚才保存的文件.

4.然后在工具栏里选择工具->将文本发送到Word

5.在这里需要Office的一个OCR(Optical Character Recognition光学字符识别)插件,如果在安装Office的时候没有安装,这时候需要用磁盘或镜像进行安装,提前备好Office安装程序哦

 

大功告成,但是OCR不可能达到100%准确,之后还需要对文档进行reivew及修改工作,但是这个工作量比你把PDF中左右文字一个个敲到文本文件里可是效率高得多。

 

如果有兴趣也可以自己写个OCR是识别程序,开源且支持中文的OCR库推荐Tesseract(C++),当然也可以使用更好用的Asprise-OCR(支提供JAVA接口)不过需要破解后使用,破解及使用方法可以google一下。

原创粉丝点击