Html文档解析器 HtmlCleaner 编辑

来源:互联网 发布:小米平板2 ubuntu 编辑:程序博客网 时间:2024/06/06 00:54

简介

        HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。


官网

http://htmlcleaner.sourceforge.net/


参考

http://www.oschina.net/p/htmlcleaner

如何让HtmlCleaner处理空内容标签时不生成自闭合的标签?


0 0