Hadoop 3.0.0 发行要点
来源:互联网 发布:淘宝订单冻结 编辑:程序博客网 时间:2024/05/17 23:22
Hadoop 3.0.0 公测版已经发布,提供了节省存储空间的策略、内置均衡DataNode 磁盘数据等功能,主要新增功能如下:
Minimum required Java version increased from Java 7 to Java 8
需要的最小 Java 版本从 Java 7 升级到 Java 8。所有的 Hadoop JARs 都使用 Java 8 进行编译,仍然使用 Java 7或一下版本的用户必须升级到 Java 8。
Support for erasure encoding in HDFS
在 HDFS 上支持擦除码。擦除码是一种用于持久存储数据的方法,与复制相比具有显著的空间节省。与标准 HDFS 复制的3x开销相比,标准编码(如 Reed-Solomon(10,4))的空间开销为1.4x。
由于擦除码在重建期间施加附加开销并且大多数执行远程读取,所以其传统上被用于存储较冷,较不频繁访问的数据。在部署此功能时,用户应考虑擦除码的网络和 CPU 开销。
YARN Timeline Service v.2
YARN 时间轴服务v.2。我们将介绍 YARN 时间轴服务的主要版本的早期预览(alpha 1):v.2。YARN 时间轴服务v.2 解决了两个主要挑战:提高时间轴服务的可扩展性和可靠性,并通过引入流和聚合增强可用性。
提供 YARN 时间轴服务v.2 alpha 1,以便用户和开发人员可以测试它,并提供反馈和建议,使其成为一个即时替代时间轴服务v.1.x。它只能在测试中使用,最重要的是,不启用安全性。如果安全性是关键要求,则不要设置或使用时间轴服务v.2,直到实现安全性。
Shell script rewrite
重写 Hadoop shell 脚本。Hadoop shell 脚本已被重写以修复许多长期存在的 bug,并且包含一些新功能。虽然一直想具有兼容性,但是一些变化仍可能会破坏现有的安装。
版本说明中记录了不兼容的更改,并对 HADOOP-9902 进行了相关讨论。
有关详细信息,请参阅 Unix Shell 指南文档。高级用户也会兴奋的 Unix Shell API 文档,其中描述了许多新的功能,特别是与可扩展性有关。
MapReduce task-level native optimization
MapReduce 任务级别的本地优化。MapReduce 增加了对映射输出收集器的本地实现的支持。对于随机密集型作业,这可以导致30%或更高的性能提高。
有关更多的详细信息,请参阅 MAPREDUCE-2841 的发行说明。
Support for more than 2 NameNodes
支持多个 NameNode。HDFS NameNode 高可用性的初始实现提供了单个活动的 NameNode 和单个备用的 NameNode。通过将编辑复制到三个 JouralNode 的法定数量,该体系结构能够容忍任何一个节点的故障。
然而,一些部署需要更高程度的容错。这个新功能的启动,允许用户运行多个备用 NameNode。例如,配置三个 NameNode 和 五个 JournalNode,集群能够容忍两个节点而不是一个节点的故障。
Default ports of multiple services have been changed
Support for Microsoft Azure Data Lake filesystem connector
Intra-datanode balancer
单个 DataNode 管理多块磁盘。在正常读写期间,磁盘将被均匀的写入。然而,增加或者更换磁盘可能导致 DataNode 数据的显著偏移。
这种情况由新的内部 DataNode 平衡功能处理,该平衡功能通过 hdfs diskbalancer Cli 调用。
Reworked daemon and task heap management
重做守护进程和任务堆管理。
官方链接:Apache Hadoop 3.0.0-alpha1;
- Hadoop 3.0.0 发行要点
- hadoop要点
- hadoop发行版本比较
- Hadoop发行版选择
- Hadoop发行版
- Cloudra Hadoop 发行版 (CDH4)
- 英特尔Hadoop发行版白皮书
- Hadoop的发行版本介绍
- hadoop学习要点
- Hadoop分布式文件系统要点
- hadoop要点(一)
- hadoop 环境搭建要点
- hadoop要点(二)
- hadoop要点(二)
- hadoop要点(三)
- hadoop要点(四)
- 【Hadoop】集群配置要点
- Cloudera : Apache Hadoop的一个发行版本
- 【3-1-30】动态内存分配
- 找到内核中的所有对象是通过什么模型结构串起来维护的,就掌握了这套代码
- Python: 3行代码实现txt文件转csv
- Python期末考试-中心点问题
- 下拉列表
- Hadoop 3.0.0 发行要点
- Apache Kylin高级部分之JDBC访问方式
- [BZOJ1188][HNOI2007]分裂游戏(博弈SG函数)
- Python获取百度浏览记录
- PHP输出echo、print、print_r、printf、sprintf、var_dump比较
- iOS 给UITableView添加手势冲突解决方案
- 爬取爱问知识人问题并保存到数据库
- 在MDK上使用COLINKEX进行仿真
- [BZOJ1982][Spoj 2021]Moving Pebbles(博弈)