Pandoc一个好用的格式转换工具

来源:互联网 发布:java.* 编辑:程序博客网 时间:2024/04/29 16:29

前几天吃过格式转换方面的亏,在从pdf转成doc文件方面。实际上pdf是由LATEX生成的。最后花费了我2天将pdf中的内容转换成doc,手工来做这种转换,效率之低下实在是让人难以忍受。所在,在自己的日常工作、学习中特别留意格式转换方面的工具。最终,我发现了pandoc这样一个优秀的格式转换工具,用了之后感觉好,心中立刻感觉到:这是一个迟到的工具。

1 介绍

也许上几天我在网上疯狂找格式转换工具的时候,已经遇到pandoc了,但是没有留意,而最后选择了Adobe Acrobat软件。这不,今天使用Ipython notebook的时候,在将当前的笔记转换为pdf下载的时候,提示我没有安装pandoc,我才知道并注意它。捣鼓了一番将其安装在电脑上面,在user guide的帮助下发现很好用。立刻就忍不住写了本博客。

你可以从这个地方下载:点击下载。

pandoc支持的输入为:

markdown, CommonMark, and (subsets of ) Textile, reStructuredText, HTML, LaTeX, MediaWiki markup, TWiki markup, Haddock markup, OPML, Emacs Org-mode, DocBook, txt2tags, EPUB wand Word docx

它支持的输出为:

Markdown, reStructuredText, XHTML, HTML5, LaTeX (including beamer slide shows), ConTeXt, RTF, OPML, DocBook, Open-Document, ODT, Word docx, GNU Texinfo, MediaWiki markup, DokuWiki markup, Haddock markup, EPUB, FictionBook2, Textile, groff man pages, Emacs Org-Mode, AsciiDoc, InDesign ICML, and Slidy, Slideous, DZSlides, reveal.js or S5 HTML slide shows.

一个很好的介绍,请参见:1.

2 一个例子

使用下面的命令为将一个latex文件转换成docx文件:

pandoc -f latex -t docx -o main.docx main.tex

转换后的结果让人可以接受,虽然图片和数学公式没有转换过来。

3 总结

pandoc的格式转换将pdf忽略了,它产生的pdf文档实际上是由你电脑上安装的LATEX引擎产生的。看来,由pdf直接转换成docx或者doc这个问题还是一个难题。在这个问题上面,Adobe Acrobat做的相对不错。


  1. John macFarlance. Pandoc User’s Guide. 2015. ↩
0 0
原创粉丝点击