AWS上搭建Hadoop集群（一）——单机安装Hadoop

来源：互联网发布：短信群发网站程序源码编辑：程序博客网时间：2024/06/07 06:30

课堂项目中实现了在AWS上搭建Hadoop集群进行数据分析，过程中间不免遇到众多问题，在此总结以供各位参考。

创建EC2实例
亚马逊AWS服务想必大家都有所了解，这里略过注册过程（为了拿student credit还是花了一番功夫）。在EC2的界面上，创建一个新的实例。

（注意下方注明了我们的服务是在哪个地区，因为在HK选择新加坡会比较快，地区页面可在右上角修改）
服务器系统这里选择Ubuntu
服务器的性能配置可以选高点（因为有credit，免费的貌似会达不到Hadoop的最低要求？)
之后点Review and Launch就可以了，会显示服务器的各项信息，再点击Launch会弹出一个key pair窗口。这里我们选择建一个新的key pair，下载保存好以后就可以创建我们的第一个实例了。
稍等几分钟后实例就创建完成，Status Checks打了绿勾就可以了。但在连接服务器前，还有一步要完成。在下方的Description中，找到Security groups，把服务器的inbound 和outbond过滤规则都改成all traffic，方便后续服务器之间的通信。
选择我们的服务器，点击上方的connet 按钮，会弹出官方指南，windows下使用putty，mac 和 linux直接在终端上连接即可。因为指南上写得已经很详细了，这里就不多赘述了。
单机安装Hadoop
以MAC为例，打开terminal，将当前路径改为密钥的文件夹下，输入指南上的指令，第一次连接时会提示未识别对方主机，输入yes将该主机加入到已知主机的列表中即可，具体原理可参考SSH的连接原理，之后的步骤中也会涉及到。

（注：如果遇到提示密钥文件过于开放，要修改密钥的权限，在指南上也有说明）
安装Java 8

查看java版本信息，若信息无误则安装成功。
建立Hadoop用户组，接下来的配置过程都将在hduser下进行。
配置SSH，正常情况下ssh服务都已预先安装好，若未安装则可输入以下命令安装

生成密钥对

(切记要登陆到hduser下）
当前文件夹下会生成两个新文件，一个是私钥，另一个是公钥

将公钥加入到已知公钥中并尝试登陆

若前面步骤没有出错，此时应该可以正常登陆，如有出错请认真检查。
安装Hadoop
由于Hadoop不支持ipv6，需要先关闭ipv6

注意要在根用户下操作，关于vim编辑器网上有许多说明，建议多学习下编辑技巧将大大缩短工作时间。
下载Hadoop并为datanode和namenode创建文件夹

更新环境变量

在最后加上环境变量

重新执行该脚本文件

升级Hadoop配置文件
a) core-site

b) hdfs-site

c) yarn-site

d) mapred-site
启动Hadoop
格式化namenode

启动HDFS

启动Hadoop

启动任务历史服务器

如果看到下面的输出，那就恭喜你！你的首个Hadoop已经成功建立并启动了！

至此，在AWS上建立单机Hadoop服务器已经完成，如有问题欢迎与我交流哈~接下来也会讲下在单机的基础上建立Hadoop集群，欢迎关注！

0 0