大数据企业学习篇02_3-------hadoop高级

来源:互联网 发布:谢菲尔德大学垃圾 知乎 编辑:程序博客网 时间:2024/06/15 09:51

一.搭建分布式集群应该注意的问题

<1>集群搭建完成以后,需要进行基准测试,是为了测试集群的性能。
监控集群企业主要用Cloudera,Cloudera Manager
* 部署安装集群
* 监控集群
* 配置同步集群
* 预警。。。。。

<2>Centos复制克隆虚拟机,虚拟网卡变成了eth1,如何解决?
*切换root
*vi /etc/udev/rules.d/70-persistent-ipoib.rules
*vi /etc/sysconfig/network-scripts/ifcfg-eth0
*重启机器即可恢复
<3>集群时间同步
* 找一台机器
时间服务器
* 所有的机器与这台机器时间进行定时的同步
比如,每日十分钟,同步一次时间

1.rpm -qa|grep ntp   2.vi /etc/ntp.conf   注释掉以下内容#server 0.centos.pool.ntp.org#server 1.centos.pool.ntp.org#server 2.centos.pool.ntp.org                #server 3.centos.pool.ntp.org iburst把以下内容注释去掉,如果内容不存在 手动添加server  127.127.1.0     # local clockfudge   127.127.1.0 stratum 10去掉以下内容的#  192.168.30.0 修改自己的网段restrict 192.168.30.0 mask 255.255.255.0 nomodify notrap保存退出3.vi /etc/sysconfig/ntpd# Drop root to id 'ntp:ntp' by default.    SYNC_HWCLOCK=yes    OPTIONS="-u ntp:ntp -p /var/run/ntpd.pid -g"4.service ntpd status5.service ntpd start6.chkconfig ntpd on操作centos002.hadoop centos003.hadoop去同步第一台centos001.hadoop这台服务器的时间[root@centos002 ~]# service ntpd stop # chkconfig ntpd off二三台服务器去同步第一台服务器时间:# ntpdate centos001.hadoop制定计划任务 周期性同步时间 二三台服务器# crontab -e*/10 * * * * /usr/sbin/ntpdate centos001分 时 日 月 星期重启 :# service crond restart详情见> http://blog.csdn.net/slibra_l/article/details/77716081

二、分布式协作框架Zookeeper

<1> *同步服务
*命名空间结构与文件系统类似
*基于观察者模式设计
<2>Zookeeper角色
这里写图片描述
<3>Zookeeper配置参数详解
这里写图片描述
这里写图片描述
这里写图片描述

三、 HDFS HA 架构部署测试

<1>背景
这里写图片描述
<2>HDFS HA设计
这里写图片描述
这里写图片描述
<3>QJM HA配置
这里写图片描述
注意: HA配置的四个要点:
* share edits
JournalNode
* NameNode
Active,Standby
* Client
Proxy
* fence
同一时刻仅仅有一个NameNode对外提供服务
使用的方式sshfence
两个NameNode之间能够ssh无密码登录
<4>QJM HA的启动
这里写图片描述
<5>NN HA自动故障转移
这里写图片描述
这里写图片描述
这里写图片描述