YARN（Hadoop）学习笔记（1）

来源：互联网发布：isnan函数 c语言编辑：程序博客网时间：2024/05/29 10:57

1. 下载JDK

由于Hadoop分布式平台框架是根据Java编写的，所以需要有JDK的支持。

从ORACLE官网上下载JDK。这里需要注意的是下载和OS配套的版本。一般分为x86和x64两个版本。可以通过命令uname–r查看版本。下载后解压缩就可以了。

在实践中，我发现JDK需要解压到usr目录下，否则不能成功部署。

2. 修改环境变量

Linux环境变量的配置是通过修改/etc/profile中的文件实现的。输入 vi /etc /profile 用vi编辑器打开profile文件。根据JDK的位置添加或修改JAVA_HOME，PATH，CLASSPATH几个变量。

3．使用java –version查看是否成功配置JDK

这一步并不是必须的，但作为大量结点构成的集群，设置无密码登陆可以更加方便工作。但需要注意的是集群外的机子需要访问时仍需要输入密码。

1.）在master上生成密钥。使用 ssh-keygen –t rsa。之后一直enter即可。该命令生成三个三个文件。id_rsa，id_rsa.pub，authorized_keys

2. ）复制私钥到slave。使用scp /root/.ssh/authorized_keys slave:~/.ssh/。将authorized_keys私钥文件复制到目标机的相应目录。

3. ）测试连接。在master上ssh连接salve。如果部署成功则不需要输入密码就可以实现连接。

这一步只需要将要加入集群中的server的IP和hostname添加到/etc/hosts文件中即可。

这一步cluster中的所有结点都要进行。并且根据实践情况来看，放置在同样的目录下会更利于后续个工作。

1. 下载hadoop包

Apache官网上的hadoop默认的是32bit的，而85或者86的机器用的是centOS的64bit的系统。所以需要进行编译。具体步骤参考文档。实际工作中我用的是海鸥给我发的编译好的hadoop-2.3.0.tar.gz文件。

2. 解压hadoop包。使用命令 tar xvf hadoop-2.3.0即可。

3. 配置环境变量。与配置JDK的方式基本相同，及修改/etc/profile

目前只需要修改六个配置文件，均在hadoop-2.3.0/etc/hadoop目录下，分别是，hadoop-env.sh，core-site.xml，hdfs-site.xml，mapred-site.xml.template，master和slaves。请注意这些文件所在的目录，至少对于hadoop的2.3.0和2.2.0版本是对的，并不像一些参考书上说的在conf目录下面。

1.）配置hadoop-env.sh

该文件是bash脚本文件。用于记录hadoop运行的环境变量。如下所示，添加JAVA_HOME和HADOOP_HOME变量。

2. ）配置core-site.xml

该文件用于配置hadoop的核心，如HDFS和MapReduce常用的I/O。在<configuration></configuration>中添加property

3. ）配置hdfs-site.xml

该文件用于配置hadoop的守护进程。同样只需要在<configuration></configuration>中添加property。

4. ）配置mapred-site.xml.template

这个文件用于配置mapreduce的守护进程。同样只需要在<configuration></configuration>中添加property

5. ）配置master

将作为master的IP添加进文件即可。master是一个普通的文本文件，在默认的目录下没有，需要通过touch master创建。

6. 配置slaves

将作为slaves的IP添加进文件即可。有多个slave的情况要不全部的slave都添加上。

启动YARN

1. 格式化HDFS

使用 hadoopnamenode –format命令。注意是命令的字母全小写，而在陆嘉恒的《Hadoop实战第二版》中用的是大写，实践发现应该是小写。

当出现如图中红色方框的内容表示格式化成功了。

2. 启动HDFS

执行sbin目录下的start-dfs.sh。

3. 查看进程

使用jps查看。Jps用于查看当前系统中的java进程。

在master上输入jps，显示有三个进程，jps，RM，SecondaryNameNode

在slave上输入jps，显示三个进程，jps，datanode，resourcenamager。

4. 启动yarn

方式和启动HDFS类似，在master上的目录sbin下使用脚本，yarn-daemons.shstart resourcemanager即可。

其实，也可以使用一句命令，同时启动HDFS和yarn。这就是同样在sbin目录下运行start-all.sh。不过根据实践情况来看，需要先执行stop-all.sh，在执行start-all.sh。

0 0