pdf文档转化为doc文档 (转载)

来源:互联网 发布:网络数据 编辑:程序博客网 时间:2024/04/30 08:56

 


 


1.1  pdf文档


 


PDF(Portable Document Format)文件格式是Adobe公司所开发的一种特殊的文本格式,这种文本格式最大的优点是其尺寸较小、阅读方便,非常适合在网络上传播和使用。


Pdf和doc有许多的差别,转化过程尤其是pdf转化为doc的过程中,会出现许多不一致的地方。所以,如果对doc文档排版要求比较高,并且怕丢失某些资料,那么手动的复制粘贴方法是最稳妥的。


本文所包含的内容均基于本人的实际工作经验,转化的方法还有许多,欢迎大家多多交流。本文所引用的数据和链接均来自互联网,由于时间和网站更新等诸多因素,本人不能保证有效性和可用性,大家也可以寻找更合适的工具。


 


1.1.1  纯图片的pdf文档


所谓“纯图片”的pdf文档,是指pdf的内容只有图片,比如将一本书扫描或者拍照成为图片之后,在组合和转化成为pdf文档。在这样的文档中,虽然看起来图文并茂,但实际上这些内容都被固定在图片当中,无法进行文字复制或另存图片。


对于这样的pdf文档,只有对照文字重新输入到doc文档中,其中的图片则可以采取截图的方法获得,再插入到doc文档中。


例如下边的图片,在这张图片当中,有文字和图片,但它们都不能在doc中进行编辑了。如果把这张图片


 




 


1.1.2  Pdf文件的阅读工具和编辑工具


Adobe Reader


它只可以进行pdf文件的阅读和非常简单的操作,所以软件也相对要小许多(20MB左右)。


8.0免费版版下载地址:http://dl.pconline.com.cn/html_2/1/81/id=1322&pn=0&linkPage=1.html


Adobe Acrobat Professional


它是专业的pdf文件制作和转换工具,功能很强大。它一般比较大,7.0版约210MB,8.0版约260MB(本人还没有使用过)。非常多的软件(如word、excel、powerpoint、indesign等等)的文件都可以转化为pdf文件。


7.0版下载地址(迅雷下载):http://61.129.76.84/dload1.html?cid=6CDC6A7C73B963ABF4A5EEE1C055A805C0DF75C1


8.0版下载地址(迅雷下载):


http://down1.greendown.cn//200611/AcroPro80_efg.rar


1.2  Pdf转化为doc的方法


以下描述的转化方法,只有在pdf文档不是纯图片的情况下才可以进行。


另外,如果pdf文档带有密码保护,也不能使用以下转化方法。需使用“pdf password recover”软件来清除其保护密码,才能使用以下方法。


1.2.1  复制粘贴法


以Adobe Acrobat Professional 7.0软件为例:


1.    在界面中,选择如下图红色箭头所指的“选择”工具按钮,然后移动鼠标箭头到pdf文档文字上方,鼠标箭头会变成选择光标。




 


2.    此时,按下鼠标左键不放,移动鼠标选择需要复制的文字,如上图蓝色条纹所示。


3.    按下键盘组合键“Ctrl+C”,或者在蓝色条纹上单击鼠标右键,在弹出的菜单中选择“复制到剪切板”。(如果选择复制为表,粘贴后,会按照一个回车键一行的方式,生成一个看不到表格边框线的表格)


4.    把已经复制到剪切板的文字粘贴到doc即可完成文字转换。


5.    如果想要把pdf文档中的图片也转到doc中,有两种方式:A,将图片另存为jpg文件到电脑中,然后在doc中将它们一一插入。B,采取截图方式,粘贴到doc文档中。(这两种图片移植到doc的方法下边将有介绍)


 


复制粘贴法的操作稍微麻烦,操作量也稍大,但是该方法能保证在剪辑doc文档时,更好的保证文档质量,包括格式是否改变、文字是否丢失、图片是否变形等。


 


另存pdf文档中的图片


该方法以Adobe Acrobat Professional 7.0为基础,过程如下:


1.    选择菜单栏中的“高级”→“导出所有图像”,如下图所示。


2.    在“导出所有图像为”菜单中,选择好保存的路径;然后可以按自己的意愿重新命名,这个命名将作为所有图片文件名称的最前字段;再选择好保存类型,如jpg、bmp等;最后点击“保存”。


3.    如下图显示,保存末端路径在“新建文件夹(2)。所有图片按照在pdf文档中出现的顺序一一导出,它们的名称都是按照第2步定义的名称开头,然后是出现在pdf文档中的第几页,再是该图片在该页码中的顺序。比如,第15页共有5张图片。




 


提示:把图片导出到一个路径层次比较浅的文件夹中,以方便在doc文档中导入它们,比如可以放在桌面的某个文件夹。但是如果以后还会用到的话,最好还是放到自己熟悉的、非操作系统所在的地方。


 


截取pdf文档中的图片


截取pdf文档中的图片,可以迅速的把它们粘贴应用到doc文档,但是这样的话,就没有留下图片文件在硬盘当中,不方便以后的编辑和更新这些图片。当然也可以在截取它们之后,使用Windows自带的画图工具、Photoshop、CorelDraw等软件,把它们另存为图片文件,这样做的效果和另存图片差不多。


截图工具有很多,截图的方式也多种多样,以下是本人常用的两种方法,它们各有优缺点。


方法一


1.    打开pdf文档,使要截取的图片能全部看到,然后按下键盘上的“print”键。这个按键用于将电脑的整个屏幕图像都复制到剪切板,可以粘贴到各种编辑软件中。


2.    然后选择“开始”→“所有程序”→“附件”,打开Windows操作系统(以XP系统为例)自带的画图软件。


3.    按下“Ctrl+V”组合键,将整个屏幕的图像粘贴到画图软件中,如下图所示。




 


4.    选择如下图红色箭头所指的“选框工具”,框选如下图所示的机器(虚线则为选定的界线),然后按下“Ctrl+C”,这时框选的内容就复制到系统剪切板上,可供其它软件粘贴用。


5.    打开doc文件,将光标移动到需要粘贴图片的位置,按下“Ctrl+V”,图片移植完成。


总结:该方法移植图片,操作量稍大。


方法二(以capture截图工具为例)


1.    打开pdf文档,使要截取的图片能全部看到,选择截图工具。


2.    框选需要截取的图片范围,确定之后即把框选的内容复制到系统剪切板上。如下图,这就是截图工具完成抓图任务后弹出的提示信息(该图为第二次抓取)。


3.    打开doc文件,将光标移动到需要粘贴图片的位置,按下“Ctrl+V”,图片移植完成。


 


Doc文档插入图片的方法


1.    将光标移动到要插入图片的位置,选择“图片”→“来自文件”。


2.    在“插入图片”菜单中,找到图片所在的文件夹,选择需要插入的图片,然后在菜单右下角的地方(有个下三角符号)选择“插入”或“连接文件”。如果使用“连接文件”方式插入,doc文档会记住插入图片的路径和文件名,当有同名的图片把该路径下的图片覆盖,doc文档会自动更新。




 


1.2.2  工具转化法


使用Office2003自带的工具转换


 


1.    首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。


2.    如果在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。


3.    运行 Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,确认即可。


 


总结:该方法不需使用多余的工具,操作步骤少。但是,它的文字识别率很低,丢失东西比较多,格式会变得很混乱,转化后的doc文档错误百出、惨不忍睹。所以,在有更好的条件的情况下,不推荐使用该方法。


 


ScanSoft PDF Converter for Microsoft Word


它是由ScanSoft公司和微软共同组队开发的一个Word的插件,它可以让你在没有Adobe Acrobat软件的情况下,将PDF文档转化为Word文档。它首先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将其统一到Word格式,并且基本上完全保留原来的格式和版面设计。所以它的转化效果是比较理想的了,但是软件比较大(我当初用的版本有200MB左右,现在似乎小了不少,但是我没有再用过它),而且转化速度比较慢。


 


该软件安装完成后,会自动嵌入到word中。如果没有嵌入,可以在word工具栏的空白处单击鼠标右键,将它打勾选择。


 


它可以作为单独的软件启动,也可以在word界面中启动。它的转化方法如下:


1.    在Word界面,直接通过“文件”—>“打开”来打开需要转化的PDF文件。


2.    此时插件会自动弹出,在分析完PDF文件后即可自动转换成DOC格式的文档。


 


总结:在以前的使用过程当中,我发现它的转化效果很理想。比如,把一篇doc文档转换为pdf之后,用它转换为doc;然后又把它转换为pdf,再转换为doc;如此反复多次之后,doc文档的资料丢失率很低,版面保持得不错,不是很乱。所以,它是比较理想的转换工具。但是对于纯的图片形式的pdf好像也无能为力了,我想这里还是要用到图像识别技术才能很好的完成了。(写出这样的软件也是很有前途的!)


 


下载地址(迅雷下载):http://mdl1.mydown.com/soft1/200510/ScanSoft_PDF_Converter_v2.0.KG.rar


 


PDF 2 Word


PDF 2 Word是一个独立运行的小软件,而非插件。


它的版本很多,有的版本不需要安装,直接运行exe程序后,在软件界面中选择pdf、设置doc输出路径即可。


总结:它在载入比较大的pdf文件时会稍慢一些,转换速度非常快,对于图片和文档格式的识别不是很好。转化后,文字基本保持格式,且都是在文本框当中;图片则会有些错位,不好进行设置,且容易和带文字的文本框重叠。但是,它基本很少丢失东西,对于这样小巧玲珑的软件,这就不错了。


下载地址:http://www.crsky.com/soft/9236.html

原创粉丝点击