Hadoop-2.3.0记录

来源:互联网 发布:天刀英气女性捏脸数据 编辑:程序博客网 时间:2024/05/22 11:52

在几年之前就知道了Hadoop,但一直没有深入的尝试过,觉得麻烦和没必要。现在需要用到了,我终于可以“名正言顺”的说服自己来尝试一下了,上周我找了3台机器搭建Hadoop集群,准备先把Hadoop跑起来,之后安装诸如Hive之类的东西,来支持我的需求来存放采集到的report原始数据还有处理report。


好吧,正题先说下之前安装Hadoop遇到的问题。

现在安装Hadoop的文档到处都是随便搜一搜就一堆,所以我写的这个就是个人记录外加给其他尝试的人提醒了,对于基本概念就不记录了。我的安装基本上是这样的。


1.在Hadoop网站下载的2.3.0版本

2.解压到/use/local/hadoop-2.3.0/

3.添加一个新用户(test1),把它加到了root组里(不加可能会需要一些问题,为了方便暂时加入),chown /use/local/hadoop-2.3.0/目录给test1

4.配置文件,这个版本的配置文件都在/etc/hadoop/中了,不像其他安装贴说的。

修改core-site.xml(我理解就是配置从机都有哪些,配置主机是谁)

从机配置:<configuration><property><name>fs.defaultFS</name><value>hdfs://主机ip:9000</value></property></configuration>

主机配置:<configuration><property>        <name>hadoop.tmp.dir</name>        <value>/usr/local/hadoop-2.3.0/tmp</value>    </property><property><name>fs.defaultFS</name><value>hdfs://主机IP:9000</value></property></configuration>
修改hdfs-site.xml,用来配置namenode和datanode的目录 

<configuration><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop-2.3.0/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop-2.3.0/dfs/data</value></property></configuration>

slaves文件,在主机的这个文件中加入所有从机的ip

修改yarn-site.xml,这个我先不在这写了,貌似和MapReduce有关系,之后我会再写清楚怎么使用

5.使用bin/hadoop namenode -format来格式化namenode的空间,只有主机需要做!

6.启动Hadoop,看到很多地方写的都是用sbin/hadoop-daemon.sh namenode start之类的来启动,可能是单机的问题?分开部署的话,不需要了!在启动之后请先使用ssh免密码登陆的机制,确保主从机能够免密码互通,之后运行主机上的sbin/start-all.sh即可,它会根据上面提到的配置文件去拉起来从机的datanode服务

7.查看ui确信他们正常了,登陆http://ip:50070这个页面可以查看到node的状态之类的,这个ui看着很舒服的,比其他的50090那个端口的ui好看多了。


说一下遇到了的一个特别头痛的问题,从机有一台有2个IP,还没找到在那里告诉Hadoop必须用哪个IP连接主机,所以只能迁就它了,它是用第二个网卡来连接的,可奇怪的是主机打出的log认为是另外一个网卡。。。导致这台机器一直不work

请修改/etc/hosts,加入ip  hostname,这样的信息,确保一个ip就一个,这个ip要和连接到主机的ip是一样的,这样上面的问题就解决了,周末开了几天,周一来看机器都挺正常的,暂时先这样了。


顺便说一下,命令行操作hadoop的命令非常简单和linux的命令类似,都是诸如

./hdfs dfs -rm -r -f /pp/./hdfs dfs -du -h /pp/./hdfs dfs -ls /

这样的命令,用起来很舒服,打错命令的help也很好

0 0
原创粉丝点击