nutch部分引用库

来源:互联网 发布:ubuntu修改ssh端口 编辑:程序博客网 时间:2024/05/31 13:14

一 apache Avro
  使用json定义模式(Schema)–>序列化反序列化
二 apache neko
NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer),使得程序能解析HTML文档并用标准的XML接口来访问其中的信息
CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是 NekoHTML
三 org Mockito
模拟测试框架Mockito,单元测试的思路就是我们想在不涉及依赖关系的情况下测试代码. 这种测试可以让你无视代码的依赖关系去测试代码的有效性.核心思想就是如果代码按设计正常工作,并且依赖关系也正常,那么他们应该会同时工作正常.
四 apache oro
java正则库。JAVA中的正则实现一直是一个混乱的情况,JDK提供的正则功能由于版本差异而存在向下不兼容的问题.
Apache的ORO作为外部LIB,多少可以缓解JVM版本差异.但由于JAVA开源的混乱局面,想做到”一次编写随处运行”还需要JAVA世界付出相当的努力.

0 0
原创粉丝点击