hadoop学习笔记1----构造模块与集群安装ssh与启动Hadoop

来源：互联网发布：ga域名编辑：程序博客网时间：2024/05/18 01:39

一、构造模块

1. NameNode：名字节点，HDFS的主端，它指导从端的DataNode执行底层的I/O任务，一信集群有一个主端，由于其比较耗内存与IO，一般是单独部署在一台服务器上。
2. DataNode：数据节点，每个集群的从节点都会驻留一个DataNode守护进程，来执行分布式文件系统的繁重工作----将HDFS数据块读取或写入到本地文件系统的实际文件中。
3. Secondary NameNode：SNN 监测HDFS集群状态的辅助守护进程。一般也是单独部署在一台服务器上。
4. JobTracker：是应用程度与hadoop之间的纽带，代码提交到集群上，JobTracker就会确定执行计划，包括处理哪些文件，为不同的任务分配节点及监控所有的任务运行，如果任务失败，JobTracker将重启任务。每个集群只有一个JobTracker守护进程，一般跟NameNode在一个节点上。
5. TaskTracker：管理各个任务在每个节点上的执行情况。不断与JobTracker通信，如果JobTracker在指定时间没有收到来自TaskTracker的“心跳”，它会假定TaskTracker崩溃，重新提交相应任务到其他节点中。

二、集群安装SSH：使用无口令（passphraseless）SSH

1. 定义一个公共的帐户（以hadoop-user为例）
2. 验证ssh的安装[主节点以 master 为例]

2.1 $which ssh
2.2 $which sshd
2.3 $which ssh-keygen
3. 生成SSH密钥对

$ssh-keygen -t rsa
4. 将公钥分布并登录验证

4.1 全分布式

1. $scp ~/.ssh/id_rsa.pub hadoop-user@target:~/master_key
2. 手动登录到目标(以target为例)节点，并设置主节点的密钥为授权密钥
$mkdir ~/.ssh
$chmod 700 ~/.ssh
$mv ~/master_key ~/.ssh/authorized_keys
$chmod 600 ~/.ssh/authorized_keys
3. 在主节点master登录到目标节点验证正确性
$ssh target
4.2 伪分布式

$ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

三、运行Hadoop

1. 指定包括主节点在内所有节点上Java的位置，即在hadoop-env.sh中定义JAVA_HOME环境变量使之指向Java安装目录：
export JAVA_HOME=/jdk安装目录
2. 配置文件

core-site.xml ： NameNode的主机名和端口
mapred-site.xml : JobTracker的主机名和端口
hdfs-site.xml ：指定HDSF的默认副本数

$cat masters
$cat slaves
3. 启动Hadoop

$bin/hadoop namenode -format [格式化HDFS]

$bin/start-all.sh [装载守护进程]

$jps [Java的jps命令列出所有守护进程验证安装成功]

$bin/stop-all.sh [关闭守护进程]

四、基于WEB的hadoop用户界面

0 0