Hadoop2.7.4分布式集群安装配置文件
来源:互联网 发布:大数据真实性 编辑:程序博客网 时间:2024/06/06 17:42
集群环境
- Hadoop版本为2.7.4
- JDK版本1.8.0_144
- 安装了三台虚拟机分别设定名称和IP如下
服务器上安装hadoop的目录结构为
/home/用户名
/hadoop
software: 存放的是安装的软件包
app : 存放的是所有软件的安装目录
hadoop2.7.4就在app目录下, 这里我的机器的用户都是nullhadoop主要配置文件有core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml
可以浏览官网查看详细的默认的配置,链接如下
core-default.xml
hdfs-default.xml
mapred-default.xml
yarn-default.xml
也可以通过下载解压hadoop后在目录下搜索*default.xml,找到这些默认配置
安装Hadoop
下载hadoop并解压到app目录下
tar -zxvf hadoop-2.7.4.tar.gz -C ~/hadoop/app
配置Hadoop 环境变量
vim /etc/profile
添加
# Hadoop Envexport HADOOP_HOME=/home/null/hadoop/app/hadoop-2.7.4export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
修改$HADOOP_HOME/etc/hadoop下的配置文件
$HADOOP_HOME就是hadoop安装目录位置
这里只是将分布式集群的一些必要的简化了的配置罗列出来了,更个性化的配置还是要参照官方文档进行设置
修改hadoop-env.sh文件
//修改JAVA_HOME路径为jdk的安装路径 export JAVA_HOME=/home/null/hadoop/app/jdk1.8.0_144
修改yarn-env.sh文件
//修改JAVA_HOME路径为jdk的安装路径 export JAVA_HOME=/home/null/hadoop/app/jdk1.8.0_144
修改slaves文件
master 既作为 NameNode 也作为 DataNode
master slave01 slave02
修改core-site.xml文件
该文件可以覆盖一部分用于控制Hadoop核心的默认的关键配置
先在$HADOOP_HOME目录下手动创建tmp文件夹,等下指定hadoop.tmp.dir为它,hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。hdfs-site-xml中默认配置namenode 和datanode的存放位置的地址就是基于此。 LINUX 系统中,在服务重启后,/tmp 下的目录被清空,所以要转到持久化的地址
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/null/hadoop/app/tmp</value> </property></configuration>
修改hdfs-site.xml文件
通过该配置文件可以修改有关的HDFS的默认配置
<configuration> <property> <name>dfs.namenode.secondary.http-address</name> <value>master:50090</value> </property> <property> <name>dfs.replication</name> <value>3</value> </property></configuration>
副本数目不能大于datanode数目
在core-site.中配置了hadoop.tmp.dir,这里保持默认即可
修改mapred-site.xml文件
该文件中的属性可以覆盖用于控制MapReduce任务执行的默认属性值
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器
sbin/mr-jobhistory-daemon.sh start historyserver
修改yarn-site.xml文件
该文件中的配置项可以覆盖用于控制YARN组件中的默认属性值
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>1024</value> </property> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>1</value> </property></configuration>
这里我架设的虚拟机是1g内存1CPU1核的 ,没设置最后两个属性时,NodeManager启动报错内存不足
相关问题可以参考我的另外一篇博客
启动Hadoop集群
格式化文件系统
在master中执行
hdfs namenode -format
启动NameNode和DataNode
在master $HADOOP_HOME下执行
sbin/.start-dfs.sh
使用jps命令查看master上的进程如下
DataNodeSecondaryNameNodeNameNodeJps
使用jps命令分别查看slave01和slave02上的进程如下
JpsDataNode
启动 ResourceManager 和 NodeManager
在master $HADOOP_HOME下执行
sbin/start-yarn.sh
使用jps命令查看master上的进程如下
DataNodeNodeManagerResourceManagerSecondaryNameNodeNameNodeJps
使用jps命令分别查看slave01和slave02上的进程如下
JpsNodeManagerDataNode
终于!Hadoop集群成功启动
- Hadoop2.7.4分布式集群安装配置文件
- Linux集群Hadoop2.5.1完全分布式安装
- hadoop2.7集群完全分布式安装配置
- centos6.5 hadoop2.6.3分布式集群安装
- Hadoop2.7.3完全分布式集群安装过程
- 二:hadoop2.x伪分布式集群安装
- Hadoop学习笔记【12】-Hadoop2.1全分布式集群安装
- Hadoop学习笔记【12】-Hadoop2.1全分布式集群安装
- Hadoop2.2.0完全分布式集群平台安装与设置
- Hadoop2.2.0完全分布式集群平台安装与设置
- Hadoop2.2.0完全分布式集群平台安装与设置
- Hadoop2.2.0完全分布式集群平台安装与设置
- Hbase完全分布式集群安装配置(Hbase1.0.0,Hadoop2.6.0)
- Hadoop之——Hadoop2.2.0分布式集群安装
- Hbase完全分布式集群安装配置(Hbase1.0.0,Hadoop2.6.0)
- Hbase分布式集群安装(Hbase1.1.2与Hadoop2.6.2)
- Hadoop2.6完全分布式多节点集群安装配置
- Hadoop2.6.2完全分布式集群HA模式安装配置详解
- DataWorks数据埋点的设计及未来发展的思考
- Inno Setup入门(九)——修改安装过程中的文字显示
- 关于SwipeRefreshLayout与ViewPage、ListView嵌套使用的几个问题
- Spring与SpringMVC的关系
- 日常运维(七):Linux下的数据备份工具rsync
- Hadoop2.7.4分布式集群安装配置文件
- gcc/g++
- WPF程序四周存在透明边框
- live555搭建rtsp服务器
- 怎样用命令行操作MySQL
- 天猫双11期间,阿里数据中心将由机器人完成巡检
- Centos之添加开机启动-yellowcong
- graphql----javascript使用
- Inno Setup入门(十)——操作注册表