Hadoop-2.3.0记录

来源：互联网发布：天刀英气女性捏脸数据编辑：程序博客网时间：2024/05/22 11:52

在几年之前就知道了Hadoop，但一直没有深入的尝试过，觉得麻烦和没必要。现在需要用到了，我终于可以“名正言顺”的说服自己来尝试一下了，上周我找了3台机器搭建Hadoop集群，准备先把Hadoop跑起来，之后安装诸如Hive之类的东西，来支持我的需求来存放采集到的report原始数据还有处理report。

好吧，正题先说下之前安装Hadoop遇到的问题。

现在安装Hadoop的文档到处都是随便搜一搜就一堆，所以我写的这个就是个人记录外加给其他尝试的人提醒了，对于基本概念就不记录了。我的安装基本上是这样的。

1.在Hadoop网站下载的2.3.0版本

2.解压到/use/local/hadoop-2.3.0/

3.添加一个新用户(test1)，把它加到了root组里（不加可能会需要一些问题，为了方便暂时加入），chown /use/local/hadoop-2.3.0/目录给test1

4.配置文件，这个版本的配置文件都在/etc/hadoop/中了，不像其他安装贴说的。

修改core-site.xml（我理解就是配置从机都有哪些，配置主机是谁）

从机配置：<configuration><property><name>fs.defaultFS</name><value>hdfs://主机ip:9000</value></property></configuration>

主机配置：<configuration><property>        <name>hadoop.tmp.dir</name>        <value>/usr/local/hadoop-2.3.0/tmp</value>    </property><property><name>fs.defaultFS</name><value>hdfs://主机IP:9000</value></property></configuration>

修改hdfs-site.xml，用来配置namenode和datanode的目录

<configuration><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop-2.3.0/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop-2.3.0/dfs/data</value></property></configuration>

slaves文件，在主机的这个文件中加入所有从机的ip

修改yarn-site.xml，这个我先不在这写了，貌似和MapReduce有关系，之后我会再写清楚怎么使用

5.使用bin/hadoop namenode -format来格式化namenode的空间，只有主机需要做！

6.启动Hadoop，看到很多地方写的都是用sbin/hadoop-daemon.sh namenode start之类的来启动，可能是单机的问题？分开部署的话，不需要了！在启动之后请先使用ssh免密码登陆的机制，确保主从机能够免密码互通，之后运行主机上的sbin/start-all.sh即可，它会根据上面提到的配置文件去拉起来从机的datanode服务

7.查看ui确信他们正常了，登陆http://ip:50070这个页面可以查看到node的状态之类的，这个ui看着很舒服的，比其他的50090那个端口的ui好看多了。

说一下遇到了的一个特别头痛的问题，从机有一台有2个IP，还没找到在那里告诉Hadoop必须用哪个IP连接主机，所以只能迁就它了，它是用第二个网卡来连接的，可奇怪的是主机打出的log认为是另外一个网卡。。。导致这台机器一直不work

请修改/etc/hosts，加入ip hostname，这样的信息，确保一个ip就一个，这个ip要和连接到主机的ip是一样的，这样上面的问题就解决了，周末开了几天，周一来看机器都挺正常的，暂时先这样了。

顺便说一下，命令行操作hadoop的命令非常简单和linux的命令类似，都是诸如

./hdfs dfs -rm -r -f /pp/./hdfs dfs -du -h /pp/./hdfs dfs -ls /

这样的命令，用起来很舒服，打错命令的help也很好

0 0