Hadoop 3.0.0 发行要点

来源:互联网 发布:淘宝订单冻结 编辑:程序博客网 时间:2024/05/17 23:22

Hadoop 3.0.0 公测版已经发布,提供了节省存储空间的策略、内置均衡DataNode 磁盘数据等功能,主要新增功能如下:

Minimum required Java version increased from Java 7 to Java 8

需要的最小 Java 版本从 Java 7 升级到 Java 8。所有的 Hadoop JARs 都使用 Java 8 进行编译,仍然使用 Java 7或一下版本的用户必须升级到 Java 8。

Support for erasure encoding in HDFS

在 HDFS 上支持擦除码。擦除码是一种用于持久存储数据的方法,与复制相比具有显著的空间节省。与标准 HDFS 复制的3x开销相比,标准编码(如 Reed-Solomon(10,4))的空间开销为1.4x。

由于擦除码在重建期间施加附加开销并且大多数执行远程读取,所以其传统上被用于存储较冷,较不频繁访问的数据。在部署此功能时,用户应考虑擦除码的网络和 CPU 开销。

YARN Timeline Service v.2

YARN 时间轴服务v.2。我们将介绍 YARN 时间轴服务的主要版本的早期预览(alpha 1):v.2。YARN 时间轴服务v.2 解决了两个主要挑战:提高时间轴服务的可扩展性和可靠性,并通过引入流和聚合增强可用性。

提供 YARN 时间轴服务v.2 alpha 1,以便用户和开发人员可以测试它,并提供反馈和建议,使其成为一个即时替代时间轴服务v.1.x。它只能在测试中使用,最重要的是,不启用安全性。如果安全性是关键要求,则不要设置或使用时间轴服务v.2,直到实现安全性。

Shell script rewrite

重写 Hadoop shell 脚本。Hadoop shell 脚本已被重写以修复许多长期存在的 bug,并且包含一些新功能。虽然一直想具有兼容性,但是一些变化仍可能会破坏现有的安装。

版本说明中记录了不兼容的更改,并对 HADOOP-9902 进行了相关讨论。

有关详细信息,请参阅 Unix Shell 指南文档。高级用户也会兴奋的 Unix Shell API 文档,其中描述了许多新的功能,特别是与可扩展性有关。

MapReduce task-level native optimization

MapReduce 任务级别的本地优化。MapReduce 增加了对映射输出收集器的本地实现的支持。对于随机密集型作业,这可以导致30%或更高的性能提高。

有关更多的详细信息,请参阅 MAPREDUCE-2841 的发行说明。

Support for more than 2 NameNodes

支持多个 NameNode。HDFS NameNode 高可用性的初始实现提供了单个活动的 NameNode 和单个备用的 NameNode。通过将编辑复制到三个 JouralNode 的法定数量,该体系结构能够容忍任何一个节点的故障。

然而,一些部署需要更高程度的容错。这个新功能的启动,允许用户运行多个备用 NameNode。例如,配置三个 NameNode 和 五个 JournalNode,集群能够容忍两个节点而不是一个节点的故障。

Default ports of multiple services have been changed

Support for Microsoft Azure Data Lake filesystem connector

Intra-datanode balancer

单个 DataNode 管理多块磁盘。在正常读写期间,磁盘将被均匀的写入。然而,增加或者更换磁盘可能导致 DataNode 数据的显著偏移。

这种情况由新的内部 DataNode 平衡功能处理,该平衡功能通过 hdfs diskbalancer Cli 调用。

Reworked daemon and task heap management

重做守护进程和任务堆管理。

官方链接:Apache Hadoop 3.0.0-alpha1;

0 0
原创粉丝点击