在阿里云上搭建hadoop

来源：互联网发布：域名进黑名单的后果编辑：程序博客网时间：2024/05/21 09:11

租了四台阿里云服务器，操作系统是ubuntu 14.04 64位，把它改造成hadoop系统。

1. 修改bash提示符，显示当前设备身份

阿里云的主机名难记，修改.bashrc，修改命令提示符，增加属性显示。

PS1='${debian_chroot:+($debian_chroot)}\u@\h:\w-master\$ ‘

2.阿里云的虚拟机自带ssh，免去装ssh的烦恼。

3.添加用户 hadoop

添加用户组 hadoop

输入命令sudo addgroup hadoop

添加用户 hadoop

输入命令sudo adduser -ingroup hadoop hadoop

给hadoop用户添加权限

按回车键后就会打开/etc/sudoers文件了，

在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL

给hadoop用户赋予root用户同样的权限

4.通过ssh key互相免密码授权

a. 创建ssh rsa key

输入命令ssh-keygen -t rsa -P "" 生成密钥对，公钥id_rsa.pub、私钥id_rsa对，每台机器都执行一次

b.公钥给对方保存，私钥自己保存

使用scp命令拷贝 scp 用户名@网址:在远端设备上路径本地地址

输入命令 cat id_rsa.pub >> ~/.ssh/ authorized_keys 本地授权对方用户

将私钥 id_rsa 拷贝到本地 ~/.ssh目录

4台机器互相持有对方的pub key，拷贝 4*3 = 12次 n台是n*(n-1)

c. 验证安装情况

在本地执行远端的命令 ssh 172.18.6.227 “linux 命令”

5. 安装jdk

先apt-get update 一下

apt-get install openjdk-7-jdk

6.增加主机IP映射，后续配置就不要记ip了

所有虚拟机修改文件 /etc/hosts

增加

121.x.y.224 slave3

121.x.y.83 slave2

121.x.y.113 slave1

114.x.y.115 master

7.下载hadoop 最新版本

下载地址 http://mirror.bit.edu.cn/apache/hadoop/common/

目前最新版本是2.6.0

8.安装hadoop

使用scp 将hadoop拷贝到所有服务器上，服务器之间拷贝的速度比较快

解压压缩包后修改配置各个脚本

a.修改hadoop-2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持：

export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/jre

安装openjdk后，路径从jre处找

b.修改hadoop-2.6.0/etc/hadoop/core-site.xml

注意：必须加在<configuration></configuration>节点内

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop-2.6.0/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>

c.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml

<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/hadoop-2.6.0/dfs/name</value>
<description>Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.</description>
</property>

<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/hadoop-2.6.0/dfs/data</value>
<description>Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks.</description>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

d.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

<name>mapred.job.tracker</name>

<value>master:9001</value>

<description>Host or IP and port of JobTracker.</description>

</property>

8.启动hadoop

a.格式化HDFS文件系统的namenode

cd hadoop-2.6.0 //进入hadoop-2.6.0目录

bin/hdfs namenode -format //格式化

格式化只要执行一次就可以了

b.启动Hadoop集群启动hdrs命令如下：

sbin/start-all.sh //开启进程，主要是启动hdfs、yarn

9.验证

a. 启动成功会输入jps，可以看到namenode 、resourcemanager、nodemanager、datanode等进程

26596 SecondaryNameNode

27725 NodeManager

27623 ResourceManager

928 Jps

27329 DataNode

27224 NameNode

b.hdfs 管理界面，查看文件系统

http://114.x.y115:50070/dfshealth.html#tab-overview

c.yarn 管理界面，查看job运行情况

http://114.x.y.115:8088/cluster

0 0