HA集群搭建
来源:互联网 发布:德国2016经济数据 编辑:程序博客网 时间:2024/06/10 02:53
Hadoop的HA机制
一、 概述
1、HA机制介绍
HA机制是从hadoop2.0开始引入的,之前的版本中是没有HA机制的。所谓HA,即高可用(7*24小时不中断服务),实现高可用最关键的是消除单点故障,Hadoop-HA严格来说应该分为各个组件的HA机制-HDFS的HA、Yarn的HA。
2、HA机制详解
通过双namenode消除单点故障,双namenode协调工作的要点:
A、元数据管理方式需要改变:
内存中各自保存一份元数据
Edits日志只能有一份,只有Active状态的namenode节点可以做写操作
两个namenode都可以读取edits
共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现)
B、需要一个状态管理功能模块
实现了一个zkfailover,常驻在每一个namenode所在的节点
每一个zkfailover负责监控自己所在namenode节点,利用zk进行状态标识
当需要进行状态切换时,由zkfailover来负责切换
切换时需要防止brain split现象的发生
二、 Hadoop-HA结构图
三、HADOOP-HA部署
软件准备:
hadoop-2.6.5
jdk1.8
硬件准备及配置规划:
3台主机
zookeeper集群配置步骤
1、 配置IP地址
2、 主机名与IP映射
3、 ssh免密码登录
4、 按照jdk并配置环境变量
5、 关闭防火墙
配置Hadoop核心配置文件
a.vi core-site.xml
<configuration> <!-- 指定hdfs的nameservice为ns1 --> <property> <name>fs.defaultFS</name> <value>hdfs://ns1</value> </property> <!-- 指定hadoop临时目录 --> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/app/hadoop-2.6.5/tmp</value> </property> <!-- 指定zookeeper地址 --> <property> <name>ha.zookeeper.quorum</name> <value>jredu002:2181,jredu003:2181,jredu004:2181</value> </property></configuration>
b.vi hdfs-site.xml
<configuration> <!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 --> <property> <name>dfs.nameservices</name> <value>ns1</value> </property> <!-- ns1下面有两个NameNode,分别是nn1,nn2 --> <property> <name>dfs.ha.namenodes.ns1</name> <value>nn1,nn2</value> </property> <!-- nn1的RPC通信地址 --> <property> <name>dfs.namenode.rpc-address.ns1.nn1</name> <value>jredu002:9000</value> </property> <!-- nn1的http通信地址 --> <property> <name>dfs.namenode.http-address.ns1.nn1</name> <value>jredu002:50070</value> </property> <!-- nn2的RPC通信地址 --> <property> <name>dfs.namenode.rpc-address.ns1.nn2</name> <value>jredu003:9000</value> </property> <!-- nn2的http通信地址 --> <property> <name>dfs.namenode.http-address.ns1.nn2</name> <value>jredu003:50070</value> </property> <!-- 指定NameNode的元数据在JournalNode上的存放位置 --> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://jredu002:8485;jredu003:8485;jredu004:8485/ns1</value> </property> <!-- 指定JournalNode在本地磁盘存放数据的位置 --> <property> <name>dfs.journalnode.edits.dir</name> <value>/home/hadoop/app/hadoop-2.6.5/journaldata</value> </property> <!-- 开启NameNode失败自动切换 --> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> <!-- 配置失败自动切换实现方式 --> <property> <name>dfs.client.failover.proxy.provider.ns1</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> <!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行--> <property> <name>dfs.ha.fencing.methods</name> <value> sshfence shell(/bin/true) </value> </property> <!-- 使用sshfence隔离机制时需要ssh免登陆 --> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/home/hadoop/.ssh/id_rsa</value> </property> <!-- 配置sshfence隔离机制超时时间 --> <property> <name>dfs.ha.fencing.ssh.connect-timeout</name> <value>30000</value> </property></configuration>
c、vi mapred-site.xml
<configuration> <!-- 指定mr框架为yarn方式 --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
d、vi yarn-site.xml
<configuration> <!-- 开启RM高可用 --> <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property> <!-- 指定RM的cluster id --> <property> <name>yarn.resourcemanager.cluster-id</name> <value>yrc</value> </property> <!-- 指定RM的名字 --> <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> </property> <!-- 分别指定RM的地址 --> <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>jredu002</value> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>jredu003</value> </property> <!-- 指定zk集群地址 --> <property> <name>yarn.resourcemanager.zk-address</name> <value>jredu002:2181,jredu003:2181,jredu004:2181</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
e、修改 slaves文件指定 datanode和nodemanager
将所有机器的hostname加入
f、修改hadoop-env.sh
export JAVA_HOME=/usr/soft/jdk1.8.0_45
修改yarn-env.sh
export JAVA_HOME=/usr/soft/jdk1.8.0_45
h、建配置好的hadoop复制到其他主机
scp –r hadoop-2.6.5 jredu003:/home/hadoop/apps/scp –r hadoop-2.6.5 jredu004:/home/hadoop/apps/
严格按照下面的步骤
1启动zookeeper集群(分别在jredu002、jredu003、jredu004上启动zk)
cd /home/hadoop/app/zookeeper-3.4.5/bin/./zkServer.sh start#查看状态:一个leader,两个follower./zkServer.sh status
2启动journalnode(分别在在jredu002、jredu003、jredu004上执行)
cd /home/hadoop/app/hadoop-2.6.5sbin/hadoop-daemon.sh start journalnode
运行jps命令检验,jredu002、jredu003、jredu004上多了JournalNode进程
3、格式化ZKFC(在主节点上执行即可)
hdfs zkfc -formatZK
4、格式化HDFS(主节点)
在jredu002上执行命令:
hdfs namenode -format
5、Active、Standby节点同步数据
a、#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,这里我配置的是/app/hadoop-2.6.5/tmp,然后将/app/hadoop-2.6.5/tmp拷贝到jredu003的/app/hadoop-2.6.5/tmp下。
scp -r tmp/ jredu003:/home/hadoop/app/hadoop-2.6.5/
b、在jredu002上启动namenode
./hadoop-daemon.sh start namenode
在jredu003上执行
hdfs namenode –bootstrapStandby
然后启动namenode节点
./hadoop-daemon.sh start namenode
6、启动HDFS(在jredu002上执行)
sbin/start-dfs.sh
7、启动YARN(在jredu002上执行start-yarn.sh,把namenode和resourcemanager分开是因为性能问题,因为他们都要占用大量资源,所以把他们分开了,他们分开了就要分别在不同的机器上启动)
sbin/start-yarn.sh
8、浏览器访问
http://192.168.67.3:8088/cluster
到此,hadoop-2.6.5配置完毕,可以统计浏览器访问:
http://192.168.67.3:50070http://192.168.67.4:50070
验证HDFS HA
首先向hdfs上传一个文件
hadoop fs -put /etc/profile /profilehadoop fs -ls /
然后再kill掉active的NameNode
kill -9 <pid of NN>
通过浏览器访问:http://192.168.67.3:50070
NameNode 'jredu002:9000' (active)
这个时候’jredu003上的NameNode变成了active
执行命令:
hadoop fs -ls /-rw-r--r-- 3 root supergroup 1926 2014-02-06 15:36 /profile
刚才上传的文件依然存在!!!
手动启动那个挂掉的NameNode
sbin/hadoop-daemon.sh start namenode
通过浏览器访问:http://192.168.67.3:50070
NameNode 'jredu002:9000' (standby)
验证YARN:
运行一下hadoop提供的demo中的WordCount程序:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar wordcount /profile /out
OK,大功告成!!!
说明:
1.在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。
hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中,主备NameNode之间通过一组JournalNode同步元数据信息,一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode
这里还配置了一个zookeeper集群,用于ZKFC(DFSZKFailoverController)故障转移,当Active NameNode挂掉了,会自动切换Standby NameNode为standby状态
2.hadoop-2.2.0中依然存在一个问题,就是ResourceManager只有一个,存在单点故障,hadoop-2.4.1解决了这个问题,有两个ResourceManager,一个是Active,一个是Standby,状态由zookeeper进行协调。
按照步骤:
1、 参照zookeeper集群搭建说明,在jredu004,jredu005,jredu006搭建zookeeper集群.
2、 安装hadoop集群,可先在jredumaster上操作
解压
tar –vxzf hadoop-2.6.5.tar.gz –C /home/hadoop/app
配置
格式化异常:
failed to start namenod org.apache.hadoop.hdfs.qjournal.client.QuorumExceptioin:Unable to check if JNs are ready for formatting ……
1、 在个节点启动journalnode
2、 方案二:
HA模式第一次或删除格式版本后格式化失败
先启动./start-dfs.sh
再进行格式化
- 搭建hbase HA集群
- Hadoop HA 集群搭建
- 搭建Hadoop HA集群
- Hadoop HA集群搭建
- HBase HA 集群搭建
- HA集群搭建
- HBase HA 集群搭建
- HA集群搭建
- Hadoop---HA集群搭建
- 搭建HA storm集群
- hadoop2.2+HA 集群搭建
- hadoop2.6.0集群HA搭建
- hadoop2集群搭建+HA配置
- HBase集群搭建+HA配置
- 【笔记】Hadoop-HA集群搭建
- Spark集群搭建(HA)
- hadoop HA集群的搭建
- hadoop集群和HA搭建
- hibernate 实体增删改查遇到mysql关键字
- vitamio遇到的问题
- 【11.23】matlab学习笔记(一)
- Centos6.6源码编译Nginx
- Java 3DES加密/解密demo
- HA集群搭建
- python学习手册(第三章:如何运行程序)
- Ranger Restful API操作用户user和群组group接口
- Openwrt 3G拨号上网
- Android Studio上方便使用butterknife注解框架的偷懒插件Android Butterknife Zelezny
- js页面循环input,checked赋值
- hive的行转列,列转行
- FFmpeg-3.3.1移植到Android平台(Mac编译)
- nanddump读出nandflash包括坏块