如何把PDF文件内容转换成TXT

来源:互联网 发布:人工智能可以思考吗 编辑:程序博客网 时间:2024/06/07 09:08
  PDF格式文档的兴起使得现在很多文档都用PDF格式进行传递一些文档资料内容,如果拿到这种格式的文档,需要用到里面的一些文本内容,有些人就会进行复制粘贴了,但是如果需要的文本内容比较多,显然一页一页的复制操作是很浪费时间的,如果要将PDF文本内容提取出来可以直接将文件转换为txt格式就可以了。
  一般我们查看PDF文件都会用的Adobe Reader,这个不仅可以查看PDF文档的内容,也能将里面的文本内容单独提取出来。所以在需要里面文本内容的时候就不需要再用复制粘贴的方法了。
  首先用Adobe Reader打开文档,在“文件”菜单中选择“另存为其他”,然后选择“文本(X)”选项,就会弹出一个另存为对话框,直接点保存就可以了。

  这种方法只适合提取里面的文本内容,对于像图片等其他类型的内容是无法提取出来的,而且转换成txt文本后,在排版上会与原来的PDF文件有些不同,有些内容的位置会出现错乱。
~~~~~
  另外我们可以用转换文档格式的方法,把PDF格式转换成txt文本文档,这样也能把PDF里面的文本内容提取出来。这种方法转换的不同之处就是能使转换后的文档与原来PDF文件的排版保持一致,方便后来查看。
  先打开PDF转换器,选择里面的文件转TXT,然后把PDF文件添加到转换工具列表中,并设置文档保存路径,最后点开始转换等待文档自动转换完成就可以了。

  两种方法都可以把PDF文件中的文本内容输出到txt中,但是转换结果还是有些不同的,尤其是表格部分的内容尤为明显。这些可以通过对比发现两者的不同。
0 0
原创粉丝点击