hadoop学习笔记1----构造模块与集群安装ssh与启动Hadoop

来源:互联网 发布:ga域名 编辑:程序博客网 时间:2024/05/18 01:39
一、 构造模块
1. NameNode:名字节点,HDFS的主端,它指导从端的DataNode执行底层的I/O任务,一信集群有一个主端,由于其比较耗内存与IO,一般是单独部署在一台服务器上。
2. DataNode:数据节点,每个集群的从节点都会驻留一个DataNode守护进程,来执行分布式文件系统的繁重工作----将HDFS数据块读取或写入到本地文件系统的实际文件中。
3. Secondary NameNode:SNN 监测HDFS集群状态的辅助守护进程。一般也是单独部署在一台服务器上。
4. JobTracker:是应用程度与hadoop之间的纽带,代码提交到集群上,JobTracker就会确定执行计划,包括处理哪些文件,为不同的任务分配节点及监控所有的任务运行,如果任务失败,JobTracker将重启任务。每个集群只有一个JobTracker守护进程,一般跟NameNode在一个节点上。
5. TaskTracker:管理各个任务在每个节点上的执行情况。不断与JobTracker通信,如果JobTracker在指定时间没有收到来自TaskTracker的“心跳”,它会假定TaskTracker崩溃,重新提交相应任务到其他节点中。

二、集群安装SSH:使用无口令(passphraseless)SSH
1. 定义一个公共的帐户(以hadoop-user为例)
2. 验证ssh的安装[主节点以 master 为例]
2.1  $which ssh
2.2  $which sshd
2.3  $which ssh-keygen
3. 生成SSH密钥对
$ssh-keygen -t rsa
4. 将公钥分布并登录验证
          4.1 全分布式
1. $scp ~/.ssh/id_rsa.pub hadoop-user@target:~/master_key
2. 手动登录到目标(以target为例)节点,并设置主节点的密钥为授权密钥
$mkdir ~/.ssh
$chmod 700 ~/.ssh
$mv ~/master_key ~/.ssh/authorized_keys
$chmod 600 ~/.ssh/authorized_keys
3. 在主节点master登录到目标节点验证正确性
$ssh target
4.2 伪分布式
$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

三、运行Hadoop
1. 指定包括主节点在内所有节点上Java的位置,即在hadoop-env.sh中定义JAVA_HOME环境变量使之指向Java安装目录:
export JAVA_HOME=/jdk安装目录
2. 配置文件
core-site.xml : NameNode的主机名和端口
mapred-site.xml : JobTracker的主机名和端口
hdfs-site.xml : 指定HDSF的默认副本数

$cat masters
$cat slaves
3. 启动Hadoop
          $bin/hadoop namenode -format [格式化HDFS]
          $bin/start-all.sh   [装载守护进程]
          $jps  [Java的jps命令列出所有守护进程验证安装成功]
          $bin/stop-all.sh    [关闭守护进程]

四、基于WEB的hadoop用户界面
0 0
原创粉丝点击