Hadoop 3.0.0 发行要点

来源：互联网发布：淘宝订单冻结编辑：程序博客网时间：2024/05/17 23:22

Hadoop 3.0.0 公测版已经发布，提供了节省存储空间的策略、内置均衡DataNode 磁盘数据等功能，主要新增功能如下：

Minimum required Java version increased from Java 7 to Java 8

需要的最小 Java 版本从 Java 7 升级到 Java 8。所有的 Hadoop JARs 都使用 Java 8 进行编译，仍然使用 Java 7或一下版本的用户必须升级到 Java 8。

Support for erasure encoding in HDFS

在 HDFS 上支持擦除码。擦除码是一种用于持久存储数据的方法，与复制相比具有显著的空间节省。与标准 HDFS 复制的3x开销相比，标准编码(如 Reed-Solomon(10,4))的空间开销为1.4x。

由于擦除码在重建期间施加附加开销并且大多数执行远程读取，所以其传统上被用于存储较冷，较不频繁访问的数据。在部署此功能时，用户应考虑擦除码的网络和 CPU 开销。

YARN Timeline Service v.2

YARN 时间轴服务v.2。我们将介绍 YARN 时间轴服务的主要版本的早期预览(alpha 1)：v.2。YARN 时间轴服务v.2 解决了两个主要挑战：提高时间轴服务的可扩展性和可靠性，并通过引入流和聚合增强可用性。

提供 YARN 时间轴服务v.2 alpha 1，以便用户和开发人员可以测试它，并提供反馈和建议，使其成为一个即时替代时间轴服务v.1.x。它只能在测试中使用，最重要的是，不启用安全性。如果安全性是关键要求，则不要设置或使用时间轴服务v.2，直到实现安全性。

Shell script rewrite

重写 Hadoop shell 脚本。Hadoop shell 脚本已被重写以修复许多长期存在的 bug，并且包含一些新功能。虽然一直想具有兼容性，但是一些变化仍可能会破坏现有的安装。

版本说明中记录了不兼容的更改，并对 HADOOP-9902 进行了相关讨论。

有关详细信息，请参阅 Unix Shell 指南文档。高级用户也会兴奋的 Unix Shell API 文档，其中描述了许多新的功能，特别是与可扩展性有关。

MapReduce task-level native optimization

MapReduce 任务级别的本地优化。MapReduce 增加了对映射输出收集器的本地实现的支持。对于随机密集型作业，这可以导致30%或更高的性能提高。

有关更多的详细信息，请参阅 MAPREDUCE-2841 的发行说明。

Support for more than 2 NameNodes

支持多个 NameNode。HDFS NameNode 高可用性的初始实现提供了单个活动的 NameNode 和单个备用的 NameNode。通过将编辑复制到三个 JouralNode 的法定数量，该体系结构能够容忍任何一个节点的故障。

然而，一些部署需要更高程度的容错。这个新功能的启动，允许用户运行多个备用 NameNode。例如，配置三个 NameNode 和五个 JournalNode，集群能够容忍两个节点而不是一个节点的故障。

Default ports of multiple services have been changed

Support for Microsoft Azure Data Lake filesystem connector

Intra-datanode balancer

单个 DataNode 管理多块磁盘。在正常读写期间，磁盘将被均匀的写入。然而，增加或者更换磁盘可能导致 DataNode 数据的显著偏移。

这种情况由新的内部 DataNode 平衡功能处理，该平衡功能通过 hdfs diskbalancer Cli 调用。

Reworked daemon and task heap management

重做守护进程和任务堆管理。

官方链接：Apache Hadoop 3.0.0-alpha1；

0 0