CENTOS7搭建伪分布式HADOOP2.7.3

来源:互联网 发布:网络社区模式案例分析 编辑:程序博客网 时间:2024/05/17 20:38
一、下载安装JDK1.8.1
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安装JDK,配置换将变量


二、下载安装HADOOP2.7.3
archive.apache.org/dist/hadoop/core/stable
1.建立一个文件夹存放解压后的hadoop程序itcast
#cd root/
#mkdir itcast


2.解压下载的hadoop-2.7.3.tar.gz到itcast目录
#tar -zxvf hadoop-2.7.3.tar.gz -C /root/itcast


2.1修改/etc/profile文件,末行加入
unset i
unset -f pathmunge


export JAVA_HOME=/usr/latest/jdk1.8.0_121
export HADOOP_HOME=/root/itcast/hadoop-2.7.3/

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

刷新配置

#source /etc/profile

3.配置伪分布式,要修改5个配置文件
第一个:hadoop-env.sh
#cd itcast/hadoop2.7.3/etc/hadoop
#vim hadoop-env.sh
将$JAVA_HOME的路径改为绝对路径


第二个:hadoop
<configuration>
<!-- 用来指定HDFS的老大(NameNode)的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://itcast01:9000</value>
</property>
<!-- 用来指定Hadoop运行时产生的文件-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/itcast/hadoop-2.7.3/tmp</value>
</property>
</configuration>


第三个:hdfs-site.xml
#vim hdfs-site.xml
<configuration>
<!-- 指定HDFS保存数据副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>


第四个:mapred-site.xml,如果没有就将template的cp一份.xml就可以
#mapred-site.xml
<configuration>
<!-- 告诉Hadoop以后MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<!-- 注意大小写 -->
<value>yarn</value>
</property>
</configuration>


第五个:yarn-site.xml
<configuration>
<!-- NodeManager获取数据的方式是shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的老大(ResourceManager) -->
<property>
<name>yarn.resourcemanager.hostname</name>
<!-- 如果YARN外部无法登陆,就使用IP地址 -->
<value>itcast01</value>
</property>
</configuration>



4.初始化HDFS(格式化文件系统)
#hadoop namenode -format(过时但依然可用)
#hdfs namenode -format(新命令)
执行其中一个就好
格式化成功会显示has been successfully formatted
如果不成功需要按error提示去修改配置文件
成功后会产生tmp目录


5.启动HDFS和YARN,需要输入多次密码,因为没配置ssh,在后面配置
#./start-all.sh(过时但依然可用) 
也可以分开启动
启动后查看
#jps
6000 NameNode
6608 NodeManager
47072 Jps
3634 GetConf
6338 SecondaryNameNode
6503 ResourceManager
6124 DataNode
如果都存在,就算有问题,也不会太大


三、测试登录
1.WEB登陆
http://10.31.18.78:50070  (HDFS管理界面,可以直接访问,但访问filesystem需要配置映射关系)
例如:在windows配置映射关系,编辑文件system32\drivers\etc\hosts
在#127.0.0.1 localhost
  #::1       localhost
下面加入
  10.31.18.78  localhost


http://10.31.18.78:8088   (YARN管理界面)
如果登陆不了,请查看YARN-SITE.XML的配置


2.上传文件
上传
#hadoop fs -put /root/Downloads/jdk-8u121-linux-x64.tar.gz hdfs://itcast01:9000/jdk
下载
hadoop fs -get hdfs://itcast:9000/jdk /home/jdk1.8


测试一个统计动作,wordcount
#hadoop fs -put /root/itcast/hadoop2.7.3/words hdfs://itcast01:9000/words
#hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount hdfs://itcast:9000/words hdfs://itcast01:9000/wcount

进web页面可以查看计算结果


四、配置ssh免登陆
1.进入.ssh文件夹
#cd ~
#cd .ssh
#ls -al  <--只有一个文件known_hosts(只知道自己)-->
2.生成一对密钥,一个公钥一个私钥,非对称加密
#ssh-keygen -t rsa  <--  -t rsa是一种加密方式 -->
三次回车后,ls查看发现生成了两个文件,id_rsa(私钥)和id_tsa.pub(公钥)
3.把公钥拷贝给自己,自己就可以免登陆自己。用cp命令创建一个authorized_keys(文件名不能改)
#cp id_rsa.pub  authorized_keys
或者
#ssh-copy-id itcast01
如果要免密码登陆别的机器,就需要将自己的公钥拷贝给对应机器直接使用
#ssh-copy-id 10.31.18.88
测试 
#ssh itcast01
可以发现不需要密码就可以登录了
0 0
原创粉丝点击