自己搭建的hadoop集群的全过程记录

来源：互联网发布：彩票选号优化方法编辑：程序博客网时间：2024/05/21 08:50

标题内容备注　 支持平台

GUN/Linux ubuntu

所需软件

1. 安装JDK

所有版本的下载地址

http://www.oracle.com/technetwork/java/javase/downloads/jdk6u38-downloads-1877406.html
jdk-6u38-linux-x64.bin
http://download.oracle.com/otn-pub/java/jdk/6u38-b05/jdk-6u38-linux-x64.bin

(1)增加执行权限

chmod u+x /usr/local/src/jdk-6u38-linux-x64.bin
(2)进行安装

./jdk-6u38-linux-x64.bin
(3)设置环境变量

vi /etc/environment
source /etc/environment
(4)是否成功

java -version

2. 安装SSH

$ sudo apt-get install ssh

3.安装 rsync
$ sudo apt-get install rsync

4.安装rpm

apt-get install rpm

1.设置环境变量

PATH="/usr/src/jdk1.6.0_38/bin:"
CLASSPATH=.:/usr/src/jdk1.6.0_38/lib
JAVA_HOME=/usr/src/jdk1.6.0_38

单机安装

1.下载 hadoop

http://mirror.bjtu.edu.cn/apache/hadoop/common/stable/
2.安装hadoop

1) 上传至 /usr/src/hadoop-1.0.4.tar.gz

2) 解压 tar -xvf /usr/src/hadoop-1.0.4.tar.gz

3) 增加配置 vi conf/hadoop-env.sh

export JAVA_HOME=/usr/src/jdk1.6.0_38

三台集群

参见上面下载并解压压缩包

1.设置系统环境，以方便执行hadoop命令
vi /root/.bashrc
HADOOP_HOME=/usr/src/hadoop-1.0.4
HADOOP_CONF_DIR=$HADOOP_HOME/conf
PATH=/usr/src/hadoop-1.0.4/bin:$PATH

2.配置 host
vi /etc/hosts
192.168.183.145 ubuntu.Master
192.168.183.143 ubuntu.SlaveA
192.168.183.146 ubuntu.SlaveB

3.配置 hostname
vi /etc/hostname
ubuntu.Master ubuntu.SlaveA ubuntu.SlaveB

3.停用防火墙

sudo ufw disable

4.启动SSH登录

1) 登陆 ubuntu.Master 的 /root 文件夹,执行 ssh-keygen -t rsa,生成id_rsa.pub文件，复制一份并改名为authorized_keys.

2) 登陆ubuntu.SlaveA,ubuntu.SlaveB,新建 /root/.ssh目录，把上面的两个文件id_rsa.pub,authorized_keys拷贝过来.

3) 在ubuntu.Master上用ssh 127.0.0.1命令测试是否能登录本机。然后用 ssh 192.168.183.143,ssh 192.168.183.146 命令测试是否能登录二台从机.

4.修改配置文件

ubuntu.Master上的配置文件

1) vi /usr/src/hadoop-1.0.4/conf/hadoop-env.sh

export JAVA_HOME=/usr/src/jdk1.6.0_38
2) 主从配置

vi /usr/src/hadoop-1.0.4/conf/master

192.168.183.145
vi /usr/src/hadoop-1.0.4/conf/masters

192.168.183.145

vi /usr/src/hadoop-1.0.4/conf/slaves

            192.168.183.143
            192.168.183.146
    3) xml配置

core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.183.145:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/src/hadoop-1.0.4/hadoop-${user.name}</value>
</property>
</configuration>

hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.183.145:9001</value>
</property>
</configuration>

ubuntu.SlaveA上的配置文件

1) vi /usr/src/hadoop-1.0.4/conf/hadoop-env.sh

export JAVA_HOME=/usr/src/jdk1.6.0_38
2) xml配置

core-site.xml

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.183.145:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/src/hadoop-1.0.4/hadoop-${user.name}</value>
</property>
</configuration>

mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.183.145:9001</value>
</property>
</configuration>

ubuntu.SlaveB 配置和ubuntu.SlaveA 完全相同

5.开始使用

1) 切换到 /usr/src/hadoop-1.0.4

2) bin/hadoop dfsadmin -safemode leave
3) 格式化文件系统 bin/hadoop namenode -format
4) 启动所有的服务 bin/start-all.sh

5) 运行测试示例

    创建test 文件 bin/hadoop fs -mkdir test
    把当前目录下的README.txt 文件上传到了fs文件系统上 bin/hadoop fs -put README.txt test
    查看新上传的这个文件 bin/hadoop fs -ls test
    执行测试任务 bin/hadoop jar hadoop-examples-1.0.4.jar wordcount /user/root/test/README.txt output1

所有的配置文件下载地址

http://download.csdn.net/detail/hongqishi/4938361