hadoop集群搭建

来源:互联网 发布:js设置边框阴影 编辑:程序博客网 时间:2024/04/29 03:49
计算机集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。
集群系统中的单个计算机通常称为节点,通常通过局域网连接。
集群技术的特点:
1.通过多台计算机完成同一个工作。达到更高的效率
2.两机或多机内容、工作过程等完全一样。如果一台死机,另一台可以起作用。

1.hadoop的分布式安装过程
    1.1 分布结构    主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode
                    从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker
    1.2 各节点重新产生ssh加密文件
            ssh-keygen -t rsa
            cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
    1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射信息
    1.4 两两节点之间的SSH免密码登陆
            ssh-copy-id -i  hadoop20
            scp /root/.ssh/authorized_keys   hadoop21:/root/.ssh/
    1.5 把hadoop0的hadoop目录下的logs和tmp删除
    1.6 把hadoop0中的jdk、hadoop文件夹复制到hadoop1和hadoop2节点
            scp  -r /usr/local/jdk   hadoop1:/usr/local/
    1.7 把hadoop0的/etc/profile复制到hadoop1和hadoop2节点,在目标节点中执行source  /etc/profile
    1.8 编辑hadoop0的配置文件slaves,改为从节点的hostname,分别是hadoop1和hadoop2 (DataNode  Tracker)
        编辑hadoop0的配置文件masters,改为从节点的hostname,分别是hadoop1   (SecondaryNameNode)
    1.9 格式化,在hadoop0节点执行hadoop namenode -format
    1.10 启动,在hadoop0节点执行start-all.sh
    ****注意:对于配置文件core-site.xml和mapred-site.xml在所有节点中都是相同的内容。

    

   终端查看集群状态:

#hadoopdfsadmin -report


2.动态的增加一个hadoop节点
    2.1 配置新节点的环境
    2.2 把新节点的hostname配置到主节点的slaves文件中
    2.3 在新节点,启动进程
            hadoop-daemon.sh start datanode
            hadoop-daemon.sh start tasktracker
    2.4 在主节点执行脚本 hadoop dfsadmin -refreshNodes



在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示,只需要等待一会儿即可。
NameNode在启动的时候首先进入安全模式,如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了 元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1HDFS永远是处于SafeMode
hadoopdfsadmin -safemode enter | leave | get |wait

0 0
原创粉丝点击