如何提取pdf中的文字并将其转换为TXT文档

来源:互联网 发布:画流程图的软件 编辑:程序博客网 时间:2024/05/17 22:36

对于毕业论文以及一些学术论文,公文,可能会涉及到较多的文字,较长的篇幅,较泛跟较精细的内容。所以很多朋友会选择通过部分引用的方式来增加自己文章论点论据的说服力。

但是现在很多学术文章为了保护自己的著作权,会选择将文章文档转换为PDF文档之后再加以上传。但是这样并不能防止他人直接从PDF文档直接获取文字内容。

如果你在写作的时候需要从PDF上获取大量的文字,手打肯定是一件麻烦的事情,要切换界面还要打字,效率实在很低。所以直接将PDF文件的文字提取出来,才是最简便的方式。

如果PDF文件的大小不会超过2M,那么通过将PDF转换为TXT文本就可以轻松解决这个问题了。

为什么是PDF转换成TXT不是转Word,因为Word文档的文字默认会有格式,所以如果从一个Word文档粘贴到另外一个文档,还需要去调整格式。

将PDF文档上传到转换平台上,设置为转换每一页。

转换完成之后,界面会显示转换出来的文字,如果篇幅不大,我们可以直接在界面当中复制粘贴。

当然也可选择将文件下载到本地,如果你的PDF文件的文字内容比较多的话。比较有意思的一点就是转换器转换出来的文字会PDF原先的段落进行分段,不用担心文字混淆的问题。

如果你在之前的操作中将PDF转换成了Word文档,那么在复制粘贴的时候可能会出现上面提到的把原文档的文字格式也粘贴下去的问题,如果你想要不保留格式的粘贴,可以这样操作。点击office按钮→选择Word选项

在高级当中,将同一文档内粘贴以及从其他程序粘贴的选项修改成仅保留文本即可。

以上便是PDF文件提取文字的方法,给大家参考学习。