如何提取PDF内容?

来源:互联网 发布:章燎原的学历知乎 编辑:程序博客网 时间:2024/04/30 14:16

我在开发一个自动导入pdf文档的系统,准备用C#来提取pdf文档的内容,但是一直没有成功。从csdn上找到了一个C#读取pdf“经典代码”——pdfreader,但是由于我对pdf文档结构不清楚,这一套代码也没有看懂怎么用。

我尝试别的办法,调用别人用C语言已完成的代码库,可是对C语言的指针参数不大了解,也没能调用成功。

最后我只能借助于adobe reader来提取pdf文档的文字内容,另存为一个txt文档,再读取其中的内容。而pdf文档的图片、表格的提取也是难事。