AWS上搭建Hadoop集群(一)——单机安装Hadoop

来源:互联网 发布:短信群发网站程序源码 编辑:程序博客网 时间:2024/06/07 06:30

课堂项目中实现了在AWS上搭建Hadoop集群进行数据分析,过程中间不免遇到众多问题,在此总结以供各位参考。

  1. 创建EC2实例
    亚马逊AWS服务想必大家都有所了解,这里略过注册过程(为了拿student credit还是花了一番功夫)。在EC2的界面上,创建一个新的实例。
    EC2创建实例
    (注意下方注明了我们的服务是在哪个地区,因为在HK选择新加坡会比较快,地区页面可在右上角修改)

    服务器系统这里选择Ubuntu
    系统

    服务器的性能配置可以选高点(因为有credit,免费的貌似会达不到Hadoop的最低要求?)
    性能

    之后点Review and Launch就可以了,会显示服务器的各项信息,再点击Launch会弹出一个key pair窗口。这里我们选择建一个新的key pair,下载保存好以后就可以创建我们的第一个实例了。
    密钥

    稍等几分钟后实例就创建完成,Status Checks打了绿勾就可以了。但在连接服务器前,还有一步要完成。在下方的Description中,找到Security groups,把服务器的inbound 和outbond过滤规则都改成all traffic, 方便后续服务器之间的通信。
    创建成功流量

    选择我们的服务器,点击上方的connet 按钮,会弹出官方指南,windows下使用putty,mac 和 linux直接在终端上连接即可。因为指南上写得已经很详细了,这里就不多赘述了。

  2. 单机安装Hadoop
    以MAC为例,打开terminal,将当前路径改为密钥的文件夹下,输入指南上的指令,第一次连接时会提示未识别对方主机,输入yes将该主机加入到已知主机的列表中即可,具体原理可参考SSH的连接原理,之后的步骤中也会涉及到。
    第一次连接
    (注:如果遇到提示密钥文件过于开放,要修改密钥的权限,在指南上也有说明)

    安装Java 8
    更新apt
    java8
    java8
    查看java版本信息,若信息无误则安装成功。
    java

    建立Hadoop用户组,接下来的配置过程都将在hduser下进行。新建用户组

    配置SSH,正常情况下ssh服务都已预先安装好,若未安装则可输入以下命令安装
    安装ssh
    生成密钥对
    keypair
    (切记要登陆到hduser下)

    当前文件夹下会生成两个新文件,一个是私钥,另一个是公钥
    pairs
    将公钥加入到已知公钥中并尝试登陆
    建立ssh文件夹

    加入到已知清单
    若前面步骤没有出错,此时应该可以正常登陆,如有出错请认真检查。

  3. 安装Hadoop
    由于Hadoop不支持ipv6,需要先关闭ipv6
    disable ipv6
    注意要在根用户下操作,关于vim编辑器网上有许多说明,建议多学习下编辑技巧将大大缩短工作时间。

    下载Hadoop并为datanode和namenode创建文件夹
    下载

    解压

    文件夹
    更新环境变量
    更新

    JAVA路径
    在最后加上环境变量
    bash

    bash
    重新执行该脚本文件
    bash
    升级Hadoop配置文件
    a) core-site
    vim core-site
    core-site
    b) hdfs-site
    vim hdfs-site
    hdfs-site
    c) yarn-site
    vim yarn-site
    yarn-site
    d) mapred-site
    cp mapred-site
    vim mapred-site
    mapred-site

  4. 启动Hadoop
    格式化namenode
    format
    启动HDFS
    hdfs
    启动Hadoop
    yarn
    启动任务历史服务器
    jobhistory
    如果看到下面的输出, 那就恭喜你!你的首个Hadoop已经成功建立并启动了!
    jps

至此,在AWS上建立单机Hadoop服务器已经完成,如有问题欢迎与我交流哈~接下来也会讲下在单机的基础上建立Hadoop集群,欢迎关注!

0 0
原创粉丝点击