Java开源Html解析类库(转载)

来源:互联网 发布:网络光纤传输器 编辑:程序博客网 时间:2024/06/06 07:24

  NekoHTML 

NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。

更多NekoHTML信息

  JTidy 

JTidy 是 HTML Tidy用Java实现的移植版本,提供了一个HTML的语法检查器和很好的打印功能。类似它的非Java产品,JTidy可以用来清除格式不好和不对的HTM。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。

更多JTidy信息

  HotSAX 

HotSAX是一个快速,小型的footprint, 用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。

更多HotSAX信息

  Jericho HTML Parser 

Jericho HTML Parser是一个简单而功能强大的Java HTML解析器库,可以分析和处理HTML文档的一部分,包括一些通用的服务器端标签,同时也可以重新生成无法识别的或无效的HTML。它也提供了一个有用的HTML表单分析器。

更多Jericho HTML Parser信息

  HTML Parser 

HTML Parser实现即时HTML语法分析程序。

更多HTML Parser信息

  Java HTML Parser 

HTML Parser提供了一组Tag对象,这些对象可以深入解析一棵可搜索的结构树。

更多Java HTML Parser信息

  TagSoup 

TagSoup是一个Java开发符合SAX的HTML解析器.

更多TagSoup信息

  HtmlRipper 

HtmlRipper是一个Java包能够按照预先定义好的规则设置来从Web页中抽取动态数据.

更多HtmlRipper信息

  Cobra 

Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。

更多Cobra信息

  HtmlCleaner 

HtmlCleaner是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。

更多HtmlCleaner信息

  Java Mozilla Html Parser 

Java Mozilla Html Parser能够将html解析成Java Document对象。它是一个基于Mozilla Html解析器封装的Html解析类库。因此能够为开发人员提供一个浏览器质量的HTML解析器。

更多Java Mozilla Html Parser信息

  VietSpider HTMLParser 

VietSpider HTMLParser是一个纯Java实现的HTML DOM解析器,支持HTML4.0.1。它是一个快速的语法检查器,利用相对应的结束标签自动关闭元素,能够处理匹配错误的内联元素标签。
VietSpider_HTMLParser.jpg

更多VietSpider HTMLParser信息

  jsoup 

jsoup是一个Java HTML Parser。能够从URL、文件或字符串解析HTML。利用DOM遍历或CSS选择器查找和抽取数据。能够操作HTML元素,属性和文本。能够依据一个白名单过滤用户提交的内容。

更多jsoup信息

  rendersnake 

rendersnake是一个用于生成HTML页面的Java开源类库,能够与标准JSP和Spring MVC集成。利用其编写的Java代码具有可维护、易于复用、类型校验、可测试和简单的特点。
rendersnake.jpg
收录时间:2011-02-20 11:16:34

更多rendersnake信息

  jsoup Cookbook中文版 

jsoup是一个基于Java的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常便利的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。而且还支持HTML5。是一个非常不错的Java开源项目,为了让更多人使用和了解这个项目。本人发了点时间将其网站提供的Cookbook翻译/整理成中文版。
地址:http://www.open-open.com/jsoup

更多jsoup Cookbook中文版信息

  HTML4J 

HTML4J 是一个用于操作HTML文档的Java开源类库。使用帮助文档:http://informatica.info/projects/html4j/doc/overview.html
收录时间:2011-10-08 23:37:00

更多HTML4J信息



出处 http://www.open-open.com/30.htm

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 电脑输密码时点了用户账户怎么办 w7电脑锁屏密码忘记了怎么办 台式电脑w7锁屏密码忘记了怎么办 win7电脑锁屏密码忘记了怎么办 苹果手机4s开机密码忘记了怎么办 苹果4s下载东西忘记密码怎么办 苹果4s不记得开机密码怎么办? 苹果手机id密码忘了怎么办能解锁 苹果5s id密码忘了怎么办? 苹果手机激活锁id忘记了怎么办 苹果刷了机忘了账号无法激活怎么办 三星s7指纹解开锁密码忘了怎么办 索尼手机锁屏密码忘了怎么办 金立手机开机密码忘了怎么办 如果小米手机锁屏密码忘记了怎么办 小米手机锁屏密码忘了怎么办 小米5x忘记了屏保锁屏密码怎么办 htc手机锁屏密码忘了怎么办 苹果7手机解锁密码忘了怎么办 魅族7plus锁屏密码忘了怎么办 捡到苹果手机不知道id密码怎么办 平板不知道id地址和密码怎么办 红米1s刷机变砖了怎么办 车玻璃被鞭炮炸了黑印子怎么办 出轨的事被家人知道后道处传怎么办 村霸霸占土地弱势村民该怎么办? 户户通没有插卡位置信息改变怎么办 出现重大污染天气时企业该怎么办 电子税务句注册后未绑定企业怎么办 报税的时候PIN码忘了怎么办 购房合同丢失开发商不给补怎么办 租赁合同丢了房东不退押金怎么办 小孩不愿意喝奶粉爱喝乳酸菌怎么办 长安通不记名卡丢了怎么办 农村电表箱里的开关坏了怎么办 建行手机银行登录密码忘了怎么办 手机银行登入密码忘记了怎么办 邮政手机银行登录密码忘了怎么办 建设手机银行登入密码忘记了怎么办 浪琴机械表秒针走的快怎么办 雷达晶萃陶瓷表镀金掉色怎么办