CENTOS7搭建伪分布式HADOOP2.7.3

来源：互联网发布：网络社区模式案例分析编辑：程序博客网时间：2024/05/17 20:38

一、下载安装JDK1.8.1
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装JDK，配置换将变量

二、下载安装HADOOP2.7.3
archive.apache.org/dist/hadoop/core/stable
1.建立一个文件夹存放解压后的hadoop程序itcast
#cd root/
#mkdir itcast

2.解压下载的hadoop-2.7.3.tar.gz到itcast目录
#tar -zxvf hadoop-2.7.3.tar.gz -C /root/itcast

2.1修改/etc/profile文件，末行加入
unset i
unset -f pathmunge

export JAVA_HOME=/usr/latest/jdk1.8.0_121
export HADOOP_HOME=/root/itcast/hadoop-2.7.3/

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

刷新配置

#source /etc/profile

3.配置伪分布式，要修改5个配置文件
第一个：hadoop-env.sh
#cd itcast/hadoop2.7.3/etc/hadoop
#vim hadoop-env.sh
将$JAVA_HOME的路径改为绝对路径

第二个：hadoop
<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://itcast01:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/root/itcast/hadoop-2.7.3/tmp</value>
</property>
</configuration>

第三个：hdfs-site.xml
#vim hdfs-site.xml
<configuration>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

第四个：mapred-site.xml，如果没有就将template的cp一份.xml就可以
#mapred-site.xml
<configuration>

<property>
<name>mapreduce.framework.name</name>

<value>yarn</value>
</property>
</configuration>

第五个：yarn-site.xml
<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.resourcemanager.hostname</name>

<value>itcast01</value>
</property>
</configuration>

4.初始化HDFS（格式化文件系统）
#hadoop namenode -format(过时但依然可用)
#hdfs namenode -format(新命令)
执行其中一个就好
格式化成功会显示has been successfully formatted
如果不成功需要按error提示去修改配置文件
成功后会产生tmp目录

5.启动HDFS和YARN，需要输入多次密码，因为没配置ssh，在后面配置
#./start-all.sh（过时但依然可用）
也可以分开启动
启动后查看
#jps
6000 NameNode
6608 NodeManager
47072 Jps
3634 GetConf
6338 SecondaryNameNode
6503 ResourceManager
6124 DataNode
如果都存在，就算有问题，也不会太大

三、测试登录
1.WEB登陆
http://10.31.18.78:50070 （HDFS管理界面，可以直接访问，但访问filesystem需要配置映射关系）
例如：在windows配置映射关系，编辑文件system32\drivers\etc\hosts
在#127.0.0.1 localhost
#::1 localhost
下面加入
10.31.18.78 localhost

http://10.31.18.78:8088 （YARN管理界面）
如果登陆不了，请查看YARN-SITE.XML的配置

2.上传文件
上传
#hadoop fs -put /root/Downloads/jdk-8u121-linux-x64.tar.gz hdfs://itcast01:9000/jdk
下载
hadoop fs -get hdfs://itcast:9000/jdk /home/jdk1.8

测试一个统计动作，wordcount
#hadoop fs -put /root/itcast/hadoop2.7.3/words hdfs://itcast01:9000/words
#hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount hdfs://itcast:9000/words hdfs://itcast01:9000/wcount

进web页面可以查看计算结果

四、配置ssh免登陆
1.进入.ssh文件夹
#cd ~
#cd .ssh
#ls -al <--只有一个文件known_hosts（只知道自己）-->
2.生成一对密钥，一个公钥一个私钥，非对称加密
#ssh-keygen -t rsa <-- -t rsa是一种加密方式 -->
三次回车后，ls查看发现生成了两个文件，id_rsa（私钥）和id_tsa.pub（公钥）
3.把公钥拷贝给自己，自己就可以免登陆自己。用cp命令创建一个authorized_keys(文件名不能改)
#cp id_rsa.pub authorized_keys
或者
#ssh-copy-id itcast01
如果要免密码登陆别的机器，就需要将自己的公钥拷贝给对应机器直接使用
#ssh-copy-id 10.31.18.88
测试
#ssh itcast01
可以发现不需要密码就可以登录了

0 0