hadoop安装(2)

来源:互联网 发布:哪个小说软件 编辑:程序博客网 时间:2024/05/22 04:39
在Linux 上安装与配置Hadoop
    (1)在Linux上安装Hadoop之前,需要先安装两个程序:JDK、SSH.Hadoop是用java编写的的程序,Hadoop的编译及MapReduce的运行都需要使用JDK。SSH(安全外壳协议),推荐安装OpenSSH.Hadoop 需要通过SSH来启动Slave列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本。
    (2)安装JDK ,download连接:http://www.oracle.com/technetwork/java/javase/downloads,安装完毕后要在/etc/profile中设置java环境变量,验证安装是否成功: $ java -version  ,最后手动设置系统默认JDK
    
    配置SSh免密码登录
    确认已经联网,$yum install ssh ,配置为可以免密码登录本机。首先看在当前用户下是否存在.ssh 文件(这是一个隐藏文件),如果没有则手动添加,接下来输入命令 $ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa ,生成秘钥文件后把公钥文件id_dsa.pub 追加到授权的key中去,输入命令:$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys,验证SSh是否安装成功以及是否可以免密码登录本机$ssh -version
    
    
    安装并运行Hadoop
    Hadoop共有三种运行方式:单机模式、伪分布模式与完全分布模式
    伪分布的配置:可以把伪分布式的hadoop看作只有一个节点的集群,在这个集群中,这个节点既是Master,也是Slave;既是NameNode,也是DataNode;既是JobTracker,也是TaskTracker。伪分布式的配置只需要修改几个文件。首先进入conf 文件夹,修改配置文件。
    (1) 进入Hadoop-env.sh :加入JDK路径 export JAVA_HOME=/usr/lib/jvm/jdk;
    (2) 核心配置文件,配置hdfs的地址和端口号,进入conf/core-site.xml
         <configuration>
            <property>
                 <name> fs.default.name</name>
                 <value>hdfs://localhost:9000</value>
            </property>
        </configuration>
    (3)Hadoop中的hdfs的配置,配置的备份方式默认为3,在单击版的Hadoop中,需要将其改为1,进入conf/hdfs-site.xml
           
        <configuration>
            <property>
               <name>dfs.replication</name>
               <value>1</value>
            </property>
        </configuration>
        
    (4)Hadoop中MapReduce的配置文件,配置JobTracker的地址及端口。进入conf/mapred-site.xml
    <configuration>
        <property>
            <name>mapred.job.tracker</name>
            <value>localhost:9001</value>
        </property>
    </configuration>
    
    
    在启动Hadoop之前,需要格式化Hadoop的文件系统HDFS。进入Hadoop文件夹下的bin目录输入$hadoop namenode -format
    启动Hadoop,仍然在bin目录下 $sh start-all.sh
    验证Hadoop是否开启成功 $JPS 或者打开浏览器输入网址:http://localhost:50070(hdfs 的Web页面) http://localhost:50030(mapReduce 的web页面)
   
0 0