首秀Hadoop伪分布式集群搭建流程

来源：互联网发布：置信度传播算法编辑：程序博客网时间：2024/05/29 10:26

伪分布式的集群指的是单主机的环境,之所以这样搭建就是为了了解Hadoop组成.
Hadoop实现了一个分布式文件系统,简称HDFS.
HDFS高容错性:高可用
Hadoop组成:MapReduce ,HDFS,YARN

配置主机环境:必须配置了JDK,假设我的主机名:hadoop-alone

1、修改主机名称
vim /etc/hosts
vim/etc/hostname
reboot
2、SSH免登陆连接
rm -r ~/.ssh //删除已有的ssh配置
ssh-keygen -t rsa //生成新的ssh-key
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys //本机公钥注册
ssh root@hadoop-alone //测试ssh连接,连接一次就不用在连接啦

3,安装Hadoop
wget http://apache.fayea.com/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz //网上下载
tar xzvf /srv/ftp/hadoop-2.8.0.tar.gz -C /usr/local/ //ftp上传,解压缩
mv /usr/local/hadoop-2.8.0/ /usr/local/hadoop //修改解压后的文件名

配置路径
vim /etc/profile
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export PATH=PATH:JAVA_HOME/bin:HADOOPHOME/bin:HADOOP_HOME/sbin
source /etc/profile //配置生效

Hadoop手工配置一下JDK
vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk

测试,进行单词统计
mkdir -p /usr/test/hadoop/input //设置一个文本保存目录
cp /usr/local/hadoop/README.txt /usr/test/hadoop/input/ //把一个文本放入
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.8.0-sources.jar org.apache.hadoop.examples.WordCount /usr/test/hadoop/input /usr/test/hadoop/output //统计操作
cat /usr/test/hadoop/output/part-r-00000 //查看输出目录

4.搭建Hadoop伪分布式集群
在实际的开发中,肯定不能像之前一样进行一个简单程序执行就运行,那么实际的运行只用需要自己去搭建Hadoop环境,同时自己进行程序的开发.本次采用伪分布式环境搭配,也就是说所有的分析进程和储存进程都要求在同一主机上运行.
mkdir -p /usr/data/hadoop/tmp //建立一个保存临时目录的路径
vim /usr/local/hadoop/etc/hadoop/core-site.xml //编辑core-site.xml文件

HDFS分布式储存的配置,网路环境不能变
mkdir -p /usr/data/hadoop/dfs/name//namenode进程的保存路径
mkdir -p /usr/data/hadoop/dfs/data//datanode进程的保存路径
vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml//编辑配置文件

修改,yarn-site.xml ,yarn分析结构使用的
vim /usr/local/hadoop/etc/hadoop/yarn-site.xml

由于是单主机伪分布式开发,还需要修改一下从节点配置文件
vim /usr/local/hadoop/etc/hadoop/slaves
格式化name data两个目录
hdfs namenode -format
启动Hadoop进程
start-all.sh
修改windows主机的hosts配置文件
C:\Windows\System32\drivers\etc\hosts
ip hadoop-alone
http://hadoop-alone:50070/

阅读全文

1 0