如何将PDF转html5?
来源:互联网 发布:澳大利亚移民知乎 编辑:程序博客网 时间:2024/05/21 08:44
网上找了JS将PDF转html,貌似没有,比较多的都是html转PDF。
pdf.js这个可以将PDF在HTML5 平台上展示。那么转换成html5或其他呢?
现在的需求主要是为了对PDF转换成可操作的html5文档(主要是分离图片、文字、提取字库等功能),然后对其选中文本设置id、class、添加一些动作之类。
【寻求答案ing...】不局限与pdf.js
有思路的朋友们可以探讨一下...
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
pdf.js – 利用HTML5技术读取PDF文件:http://www.html5dw.com/portal.php?mod=view&aid=203
pdf.js在firefox下运行,其他浏览器运行不怎么兼容
常见的 PDF 阅读功能一应俱全,渲染速度上也已经和本地的 PDF 阅读插件无异。
毫无疑问 pdf.js 将被整合入 Gecko 成为 Firefox 的内嵌 PDF 阅读器,但是具体整合时间表尚未确定。
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
HTML5文档转换工具Crocodoc兴起:http://www.csdn.net/article/2012-05-02/2805221 (这个貌似不错,不过是在线的。)
http://preview.crocodoc.com 在线上传文档可下载,可预览(已试过,可以生成html5,采用内嵌SVG)
http://personal.crocodoc.com/ 新的个人上传文件转换
https://crocodoc.com/see-it-in-action/upload/ 这个也是上传的 不过上传了没反应。
Crocodoc现在已经被box收购了http://blog.box.com/2013/05/box-is-acquiring-crocodoc-to-reimagine-documents-in-the-cloud/
可以给普通消费者提供文档转换,它还为企业客户提供服务并整合到客户的产品中
在线转换教程:http://www.freehao123.com/crocodoc-com/
box开发者使用:http://developers.box.com/using-the-view-api-with-the-content-api/
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
Java:采用xpdf将pdf转html http://www.iteye.com/topic/333676
转换后的效果是:只是提取pdf中的文字出来,没有图片提取等。
nodejs:pdf转html http://blog.yourtion.com/nodejs-convert-pdf-to-html.html
没试验,估计跟上面的Java一样只是提取文字而已。(已调试,简单地提取文字而已)
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
由于 Crocodoc在线上传且部分无法转换成功的局限性,我后来找了另外的转换工具。——PDF2HtmlEx
其转换的效果还不错,说是高保真的。刚开始我觉得唯一不好就是每一个pdf就只转换成一个html,没有抽离文字、图片、字体库等等,还对字体重编码(考虑文件大小优化问题)。后来发了邮件给作者,他回复了可以加参数,果真如此:参数请参考:https://github.com/coolwanglu/pdf2htmlEX/wiki/QuickStart
如:pdf2htmlEX --embed cfijo --dest-dir out pdf/test.pdf
还可以指定字体库参数 --font-format <string>
功能强大,更多功能可以使用pdf2htmlEx --help 获取
PDF2htmlEx window版本下载 :
http://soft.rubypdf.com/software/pdf2htmlex-windows-version
使用方法:http://blog.rubypdf.com/2013/08/19/pdf2htmlex-windows-verion-release/
PDF2htmlEx百科:
http://baike.baidu.com/link?url=SomIaaN2-fIKza5DRpEH4M7EXQJL2AYCQ-fHcQhZzs5jxwCwxQvUO4RFrrkEddBguox-tI5TKfV4KzXduBZ1i_
pdf2htmlEX:高保真PDF至HTML转换器
http://www.linuxidc.com/Linux/2012-09/69749.htm
开发者:王路 PDF2html github版本 :https://github.com/coolwanglu/pdf2htmlEX
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
总结:采用PDF2htmlEx,功能强大,免费开源,高保真转换效果。
与其他工具对比:
- 如何将PDF转html5?
- 如何将pdf转excel转换
- 如何将PDF转成Word?
- 如何将文件转成PDF
- 如何将PDF转为word
- 将 HTML 转 PDF
- 如何使用PDF转ppt转换器将PDF文件快速转换为ppt
- 如何将PDF文件转换成PPT格式?PDF文件转PPT格式教程分享
- pdf转换器告诉你如何将pdf转换成word
- 如何使用PDF转换器将PDF转换成图片
- pdf虚拟打印机如何将txt转成pdf
- 如何利用PDF编辑软件将pdf文字修改
- 如何将pdg转换为pdf格式?
- 如何将DOC转换成PDF
- 如何将Word转化为PDF文件
- 如何将CHM转换为PDF文件?
- 如何将CAJ文件转换为pdf
- 如何将网页保持为PDF?
- rcp嵌入Eclipse自带的console
- android chromium点击链接打开新标签页过程分析
- 【九度】题目1414:旅游啦
- 复习笔记之二--用户方式线程同步
- 效仿存储过程,尽管不懂,留个模板。
- 如何将PDF转html5?
- bat 命令学习
- ubuntu 10 安装samba服务,windows下磁盘驱动映射
- Linux kernel测试初探
- 基于Weblogic11的Mule3.5部署指南
- about unicode
- 解决windows phone中使用sqlite时报SQLiteClient.SQLiteException: unrecognized token错误
- DBCC大全集之(适用版本MS SQLServer 2008 R2)----DBCC CLEANTABLE回收表或索引视图中已删除的可变长度列的空间
- [Ext.Net]动态生成控件(二)--js动态添加文本框