YARN(Hadoop)学习笔记(1)
来源:互联网 发布:isnan函数 c语言 编辑:程序博客网 时间:2024/05/29 10:57
1. 下载JDK
由于Hadoop分布式平台框架是根据Java编写的,所以需要有JDK的支持。
从ORACLE官网上下载JDK。这里需要注意的是下载和OS配套的版本。一般分为x86和x64两个版本。可以通过命令uname–r查看版本。下载后解压缩就可以了。
在实践中,我发现JDK需要解压到usr目录下,否则不能成功部署。
2. 修改环境变量
Linux环境变量的配置是通过修改/etc/profile中的文件实现的。输入 vi /etc /profile 用vi编辑器打开profile文件。根据JDK的位置添加或修改JAVA_HOME,PATH,CLASSPATH几个变量。
3. 使用java –version查看是否成功配置JDK
这一步并不是必须的,但作为大量结点构成的集群,设置无密码登陆可以更加方便工作。但需要注意的是集群外的机子需要访问时仍需要输入密码。
1.) 在master上生成密钥。使用 ssh-keygen –t rsa。之后一直enter即可。该命令生成三个三个文件。id_rsa,id_rsa.pub,authorized_keys
2. )复制私钥到slave。使用scp /root/.ssh/authorized_keys slave:~/.ssh/。将authorized_keys私钥文件复制到目标机的相应目录。
3. )测试连接。在master上ssh连接salve。如果部署成功则不需要输入密码就可以实现连接。
这一步只需要将要加入集群中的server的IP和hostname添加到/etc/hosts文件中即可。
这一步cluster中的所有结点都要进行。并且根据实践情况来看,放置在同样的目录下会更利于后续个工作。
1. 下载hadoop包
Apache官网上的hadoop默认的是32bit的,而85或者86的机器用的是centOS的64bit的系统。所以需要进行编译。具体步骤参考文档。实际工作中我用的是海鸥给我发的编译好的hadoop-2.3.0.tar.gz文件。
2. 解压hadoop包。使用命令 tar xvf hadoop-2.3.0即可。
3. 配置环境变量。与配置JDK的方式基本相同,及修改/etc/profile
目前只需要修改六个配置文件,均在hadoop-2.3.0/etc/hadoop目录下,分别是,hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml.template,master和slaves。请注意这些文件所在的目录,至少对于hadoop的2.3.0和2.2.0版本是对的,并不像一些参考书上说的在conf目录下面。
1.)配置hadoop-env.sh
该文件是bash脚本文件。用于记录hadoop运行的环境变量。如下所示,添加JAVA_HOME和HADOOP_HOME变量。
2. )配置core-site.xml
该文件用于配置hadoop的核心,如HDFS和MapReduce常用的I/O。在<configuration></configuration>中添加property
3. )配置hdfs-site.xml
该文件用于配置hadoop的守护进程。同样只需要在<configuration></configuration>中添加property。
4. )配置mapred-site.xml.template
这个文件用于配置mapreduce的守护进程。同样只需要在<configuration></configuration>中添加property
5. )配置master
将作为master的IP添加进文件即可。master是一个普通的文本文件,在默认的目录下没有,需要通过touch master创建。
6. 配置slaves
将作为slaves的IP添加进文件即可。有多个slave的情况要不全部的slave都添加上。
启动YARN
1. 格式化HDFS
使用 hadoopnamenode –format命令。注意是命令的字母全小写,而在陆嘉恒的《Hadoop实战第二版》中用的是大写,实践发现应该是小写。
当出现如图中红色方框的内容表示格式化成功了。
2. 启动HDFS
执行sbin目录下的start-dfs.sh。
3. 查看进程
使用jps查看。Jps用于查看当前系统中的java进程。
在master上输入jps,显示有三个进程,jps,RM,SecondaryNameNode
在slave上输入jps,显示三个进程,jps,datanode,resourcenamager。
4. 启动yarn
方式和启动HDFS类似,在master上的目录sbin下使用脚本,yarn-daemons.shstart resourcemanager即可。
其实,也可以使用一句命令,同时启动HDFS和yarn。这就是同样在sbin目录下运行start-all.sh。不过根据实践情况来看,需要先执行stop-all.sh,在执行start-all.sh。
- YARN(Hadoop)学习笔记(1)
- YARN(Hadoop)学习笔记(2)
- YARN(Hadoop)学习笔记(5)
- YARN(Hadoop)学习笔记(3)
- YARN(Hadoop)学习笔记(4)
- YARN(Hadoop)学习笔记(6)
- hadoop yarn 学习笔记(一)
- Hadoop学习笔记(四)YARN
- hadoop学习笔记 YARN
- 菜鸟的Hadoop (Before YARN) 学习笔记 (一) WordCount
- Hadoop学习笔记 --- YARN架构学习
- [Big Data]菜鸟的Hadoop (Before YARN) 学习笔记 (一) WordCount
- hadoop新MapReduce框架yarn学习笔记
- Hadoop学习笔记 --- YARN工作原理
- hadoop学习笔记之深入了解YARN
- Hadoop学习笔记十二 YARN基础知识
- Spark-on-YARN (来自学习笔记)
- 大数据学习笔记(三)-Yarn
- ubuntu刻录到U盘
- 傅里叶与图像处理
- POJ1836——Alignment
- 相同的身体
- 程序的执行过程
- YARN(Hadoop)学习笔记(1)
- ICTCLAS2014 Java版本的使用方法
- 模板形参的名字
- Ubuntu“ System Program Problem Detected”问题
- 解决used as the name of the previous parameter rather than as part of the selector方法
- Tomcat 多域名配置
- container_of理解
- 《新闻》之笔记三
- android学习四(Activity的生命周期)