在阿里云上搭建hadoop

来源:互联网 发布:域名进黑名单的后果 编辑:程序博客网 时间:2024/05/21 09:11

租了四台阿里云服务器,操作系统是ubuntu 14.04 64位,把它改造成hadoop系统。

1. 修改bash提示符,显示当前设备身份

阿里云的主机名难记,修改.bashrc,修改命令提示符,增加属性显示。

PS1='${debian_chroot:+($debian_chroot)}\u@\h:\w-master\$ ‘


2.阿里云的虚拟机自带ssh,免去装ssh的烦恼。


3.添加用户 hadoop

   添加用户组  hadoop  

           输入命令sudo addgroup hadoop

   添加用户 hadoop 

          输入命令sudo adduser -ingroup hadoop hadoop 

   给hadoop用户添加权限

          按回车键后就会打开/etc/sudoers文件了,

          在root   ALL=(ALL:ALL)   ALL下添加hadoop   ALL=(ALL:ALL)  ALL

          给hadoop用户赋予root用户同样的权限


4.通过ssh key互相免密码授权

       a. 创建ssh rsa key 

           输入命令ssh-keygen -t rsa -P "" 生成密钥对,公钥id_rsa.pub、私钥id_rsa对,每台机器都执行一次

       b.公钥给对方保存,私钥自己保存 

           使用scp命令拷贝  scp 用户名@网址:在远端设备上路径 本地地址 

           输入命令 cat id_rsa.pub >> ~/.ssh/ authorized_keys  本地授权对方用户

           将私钥 id_rsa 拷贝到本地 ~/.ssh目录  

           4台机器互相持有对方的pub key,拷贝 4*3 = 12次  n台是n*(n-1)

       c. 验证安装情况

           在本地执行远端的命令 ssh 172.18.6.227  “linux 命令”


5. 安装jdk

      先apt-get update 一下

      apt-get install openjdk-7-jdk


6.增加主机IP映射,后续配置就不要记ip了

    所有虚拟机修改文件 /etc/hosts

   增加  

   121.x.y.224   slave3

   121.x.y.83    slave2

   121.x.y.113   slave1

   114.x.y.115   master


7.下载hadoop 最新版本

    下载地址 http://mirror.bit.edu.cn/apache/hadoop/common/

    目前最新版本是2.6.0


8.安装hadoop

    使用scp 将hadoop拷贝到所有服务器上,服务器之间拷贝的速度比较快  

    解压压缩包后修改配置各个脚本

   

    a.修改hadoop-2.6.0/etc/hadoop/hadoop-env.sh,添加JDK支持:

       export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64/jre

       安装openjdk后,路径从jre处找

    

    b.修改hadoop-2.6.0/etc/hadoop/core-site.xml

        注意:必须加在<configuration></configuration>节点内

<configuration>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop-2.6.0/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://master:9000</value>
    </property>
</configuration>

    c.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml

<property>
    <name>dfs.name.dir</name>
    <value>/home/hadoop/hadoop-2.6.0/dfs/name</value>
    <description>Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.</description>
</property>
 
<property>
    <name>dfs.data.dir</name>
    <value>/home/hadoop/hadoop-2.6.0/dfs/data</value>
    <description>Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks.</description>
</property>
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>


    d.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

<property> 

   <name>mapred.job.tracker</name> 

   <value>master:9001</value> 

   <description>Host or IP and port of JobTracker.</description>

</property>


8.启动hadoop

    a.格式化HDFS文件系统的namenode

    cd hadoop-2.6.0  //进入hadoop-2.6.0目录

    bin/hdfs namenode -format  //格式化

    格式化只要执行一次就可以了


    b.启动Hadoop集群启动hdrs命令如下:

       sbin/start-all.sh //开启进程,主要是启动hdfs、yarn

   

    

9.验证

     a. 启动成功会输入jps,可以看到namenode 、resourcemanager、nodemanager、datanode等进程

26596 SecondaryNameNode

27725 NodeManager

27623 ResourceManager

928 Jps

27329 DataNode

27224 NameNode


    b.hdfs 管理界面,查看文件系统

http://114.x.y115:50070/dfshealth.html#tab-overview


    c.yarn 管理界面,查看job运行情况

http://114.x.y.115:8088/cluster



0 0