第131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记

来源:互联网 发布:学软件发展前景好不 编辑:程序博客网 时间:2024/05/29 04:45

131讲:Hadoop集群管理工具均衡器Balancer 实战详解学习笔记

为什么需要均衡器呢?

随着集群运行,具体hdfs各个数据存储节点上的block可能分布得越来越不均衡,会导致运行作业时降低mapreduce的本地性。

分布式计算中精髓性的一名话:数据不动代码动。降低本地性对性能的影响是致使的,而且不能充分利用集群的资源,因为导致任务计算会集中在部分datanode上,更易导致故障。

balancerhadoop的一个守护进程。会将block从忙的datanode移动到闲的datanode上,重新分配block,另外在生产环境下会有rackbalancer会坚持repalication放置策略,将block分布到不同的机架中,降低数据损坏的可能性。

balancer本身会不断移动block直到达到均衡状态,什么叫均衡?每一个datanode的使用率(当前节点已使用空间与空间容量的百分比),和集群使用率(集群已使用空间与集群空间容量的百分比),如果节点使用率与集群使用率接近(不超过一定的阀值)则认为均衡。这个阀值的设定方法:threshold参数。

默认阀值是10%

由于 balancer工作时消耗资源,所以工作时集群中只有一个balancer

balancer在标准日志中会创建日志记录每一个block重新分配的过程。为降低集群负荷,balancer被设计为在后台运行,在不同节点间复制数据的带宽也受限,默认为1MB/s(可设)

start-balancer.sh即可运行。

生产环境下balancer非常重要。

 

以上内容是王家林老师DT大数据梦工厂《Hadoop深入浅出实战经典》第131讲的学习笔记。
王家林:SparkFlinkDockerAndroid技术中国区布道师。Spark亚太研究院院长和首席专家,DT大数据梦工厂创始人,Android软硬整合源码级专家,英语发音魔术师,健身狂热爱好者。

微信公众账号:DT_Spark

联系邮箱18610086859@126.com 

电话:18610086859

QQ:1740415547

微信号:18610086859  

新浪微博:ilovepains

王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!

可以通过王家林老师的微信号18610086859发红包捐助,目前已经发布的王家林免费视频全集如下:

1,《大数据不眠夜:Spark内核天机解密(共100讲)》:http://pan.baidu.com/s/1eQsHZAq  

2,《Hadoop深入浅出实战经典》 http://pan.baidu.com/s/1mgpfRPu 

3,《Spark纯实战公益大讲坛》 http://pan.baidu.com/s/1jGpNGwu 
4,《Scala深入浅出实战经典》 http://pan.baidu.com/s/1sjDWG25 
5,《Docker公益大讲坛》 http://pan.baidu.com/s/1kTpL8UF 
6,《Spark亚太研究院Spark公益大讲堂》 http://pan.baidu.com/s/1i30Ewsd 

7Spark实战高手之路全部六阶段视频:http://edu.51cto.com/pack/view/id-144.html

8,《大数据Spark企业级实战》购买http://item.jd.com/11622851.html

 

131讲视频网站地址:

51CTO

http://edu.51cto.com/lesson/id-78585.html

0 0