自己搭建的hadoop集群的全过程记录

来源:互联网 发布:彩票选号优化方法 编辑:程序博客网 时间:2024/05/21 08:50

标题内容备注                                                       支持平台

GUN/Linux ubuntu
 
所需软件
1. 安装JDK
所有版本的下载地址
http://www.oracle.com/technetwork/java/javase/downloads/jdk6u38-downloads-1877406.html
jdk-6u38-linux-x64.bin
http://download.oracle.com/otn-pub/java/jdk/6u38-b05/jdk-6u38-linux-x64.bin
 
(1)增加执行权限
chmod u+x /usr/local/src/jdk-6u38-linux-x64.bin
(2)进行安装
 ./jdk-6u38-linux-x64.bin 
(3)设置环境变量
vi /etc/environment
source /etc/environment 
(4)是否成功
 java -version

2. 安装SSH
$ sudo apt-get install ssh 
3.安装 rsync
$ sudo apt-get install rsync
4.安装rpm
 apt-get install rpm
 
1.设置环境变量
PATH="/usr/src/jdk1.6.0_38/bin:"
CLASSPATH=.:/usr/src/jdk1.6.0_38/lib
JAVA_HOME=/usr/src/jdk1.6.0_38
单机安装
1.下载 hadoop
http://mirror.bjtu.edu.cn/apache/hadoop/common/stable/
2.安装hadoop
    1) 上传至 /usr/src/hadoop-1.0.4.tar.gz
    2) 解压 tar -xvf /usr/src/hadoop-1.0.4.tar.gz
    3) 增加配置 vi conf/hadoop-env.sh
                     export JAVA_HOME=/usr/src/jdk1.6.0_38
 
三台集群
参见上面下载并解压压缩包
1.设置系统环境,以方便执行hadoop命令
vi /root/.bashrc
HADOOP_HOME=/usr/src/hadoop-1.0.4
HADOOP_CONF_DIR=$HADOOP_HOME/conf
PATH=/usr/src/hadoop-1.0.4/bin:$PATH
2.配置 host
vi /etc/hosts
192.168.183.145 ubuntu.Master
192.168.183.143 ubuntu.SlaveA
192.168.183.146 ubuntu.SlaveB
3.配置 hostname
vi /etc/hostname
ubuntu.Master  ubuntu.SlaveA ubuntu.SlaveB
3.停用防火墙
sudo ufw disable
4.启动SSH登录
  1) 登陆 ubuntu.Master 的 /root 文件夹,执行 ssh-keygen -t rsa,生成id_rsa.pub文件,复制一份并改名为authorized_keys.
  2) 登陆ubuntu.SlaveA,ubuntu.SlaveB,新建 /root/.ssh目录,把上面的两个文件id_rsa.pub,authorized_keys拷贝过来.
  3) 在ubuntu.Master上用ssh 127.0.0.1命令测试是否能登录本机。然后用 ssh 192.168.183.143,ssh 192.168.183.146 命令测试是否能登录二台从机.
4.修改配置文件
ubuntu.Master上的配置文件
  1) vi /usr/src/hadoop-1.0.4/conf/hadoop-env.sh
     export JAVA_HOME=/usr/src/jdk1.6.0_38
  2) 主从配置
    vi /usr/src/hadoop-1.0.4/conf/master
            192.168.183.145
    vi /usr/src/hadoop-1.0.4/conf/masters
            192.168.183.145
    vi /usr/src/hadoop-1.0.4/conf/slaves
            192.168.183.143
            192.168.183.146
    3) xml配置
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.183.145:9000</value>
</property>
<property> 
  <name>hadoop.tmp.dir</name> 
  <value>/usr/src/hadoop-1.0.4/hadoop-${user.name}</value> 
</property> 
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.183.145:9001</value>
</property>
</configuration>
 
ubuntu.SlaveA上的配置文件
 1) vi /usr/src/hadoop-1.0.4/conf/hadoop-env.sh
     export JAVA_HOME=/usr/src/jdk1.6.0_38
2) xml配置
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://192.168.183.145:9000</value>
</property>
<property> 
  <name>hadoop.tmp.dir</name> 
  <value>/usr/src/hadoop-1.0.4/hadoop-${user.name}</value> 
</property> 
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.183.145:9001</value>
</property>
</configuration>
ubuntu.SlaveB 配置和ubuntu.SlaveA 完全相同
 
 
5.开始使用
  1) 切换到 /usr/src/hadoop-1.0.4
  2) bin/hadoop dfsadmin -safemode leave 
  3) 格式化文件系统 bin/hadoop namenode -format
  4) 启动所有的服务 bin/start-all.sh
  5) 运行测试示例
    创建test 文件 bin/hadoop fs -mkdir test
    把当前目录下的README.txt 文件上传到了fs文件系统上 bin/hadoop fs -put README.txt test
    查看新上传的这个文件 bin/hadoop fs -ls test
    执行测试任务 bin/hadoop jar hadoop-examples-1.0.4.jar wordcount /user/root/test/README.txt output1

所有的配置文件下载地址

http://download.csdn.net/detail/hongqishi/4938361



原创粉丝点击