基于yarn的Hadoop调优
来源:互联网 发布:无间道1细节知乎 编辑:程序博客网 时间:2024/06/05 04:19
Hadoop2推出yarn作为资源管理器,它借鉴了mesos的思想为上层应用提供统一的资源管理和调度。首先ResourceManager(RM)通过NodeManager(NM)不断得到集群整体资源的视图,这些资源包括CPU、内存等,而且是以Container的形式表现的。ApplicationMaster对应用户提交的应用,比如MapReduce,这一计算Job的数据分布在若干节点上,它首先通过RM了解数据所在节点的资源情况,一旦获得满足要求的Container,即与此节点上的NM通讯并启动相应的计算任务。相较于Hadoop1,PM与AM分别承担了NameNode分配资源和完成计算任务的两大职责,并将二者加以分离。
Yarn表示资源利用不再简单的以slot为单位来考量,而是综合CPU、内存等所有可用资源,但是我们的计算任务,比如MapReduce依然需要通过map/reduce的Task 总数来衡量所需资源,进而通过优化blocksize、spill、buffer、merge等相关参数来优化Hadoop集群的性能。这些优化就是对通过Container获取到的资源更加合理充分的使用,最大限度的提高系统的吞吐量。
综合上述,对Hadoop2的优化分为两部分,分别为Yarn和传统的HDFS、Mapred。那么,对于Spark而言也是如此,Yarn相关参数的设置和优化并不涵盖对计算任务如何有效使用资源的优化。当然,Yarn的推出使得Hadoop可以支持更多类型的计算任务。
0 0
- 基于yarn的Hadoop调优
- hadoop yarn 的原理
- hadoop yarn的运行机制
- 04hadoop的Yarn
- Hadoop YARN的安装配置
- Hadoop 中Yarn的理解
- Hadoop和YARN的关系
- Hadoop Yarn的工作流程
- Hadoop YARN的工作流程
- Hadoop中yarn的运行机制
- Alex 的 Hadoop 菜鸟教程: 第5课 YARN 安装以及helloworld (基于centos的CDH)
- Hadoop Yarn内存资源隔离实现原理——基于线程监控的内存隔离方案
- 大数据处理技术-基于Hadoop/Yarn的大数据技术实战
- Hadoop学习6_基于hadoop2.2.0 的 hadoop2.0 yarn 总结
- Hadoop Yarn内存资源隔离实现原理——基于线程监控的内存隔离方案
- 基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
- 基于Hadoop分布式集群YARN模式下的TensorFlowOnSpark平台搭建
- Hadoop YARN
- 利用AutoCAD I/O 和View & Data 做DWG图纸的无纸化签字
- 【C++基础之二十】可变参数的函数
- Docker Container网络模式
- oracle表空间使用率统计查询
- Leetcode Problem 1: Two sum
- 基于yarn的Hadoop调优
- Android NDK打印日志
- 使用QT实现右击菜单实例
- 怎样选择Hadoop的基准测试
- Mysql 索引重置
- Android开发学习之路--Camera之初体验
- 零散小经验
- POJ 2309 BST
- 大数据应用的一点认识