Hadoop第二讲

来源：互联网发布：小知科技俞乃博编辑：程序博客网时间：2024/04/29 06:14

参考资料：Hadoop实战等

三种运行模式：
1.单机模式：安装简单，仅仅用于调试
2.伪分布式模式：在单个节点上同时启动namenode，datanode、jobtracker、tasktracker、secondary namenode等5个进程，模拟分布式运行的各个节点。
3. 完全分布式模式：正常的Hadoop集群，有多个节点构成。(至少是3个，一个Master，2个Slaves，保证冗余)。
Hadoop的主要安装步骤
Hadoop的安装过程：
1. 配置Hadoop-env.sh文件

2. 配置core-site.xml文件
主要是用于配置namenode的IP和端口，要是在分布式系统中需要将其中的localhost改为真实的namenode的IP地址
配置core-site文件
3. 配置hdfs-site.xml文件
指定该节点存放数据的位置(目录需要预先建立)，同时指定该数据块被复制多少份。
配置数据在节点的存放位置
4. 配置mapred-site.xml文件
作业跟踪器是MapReduce调度的核心，必须先找到JobTracker，然后才能够提交MapReduce作业，以及对该作业进行控制。在完全分布式的系统中将其中localhost改为机器的真实IP地址即可。
配置作业跟踪器的位置
5. 配置ssh，生成秘钥
以便节点之间能够免密码链接进行工作。
生成ssh秘钥
分发ssh秘钥
ssh原理
6.在名称节点上格式化分布式文件系统
格式化文件系统
建立用于存放元数据的文件目录等。
7. 启动Hadoop守护进程
启动守护进程
8. 监测运行情况
Hadoop运行情况

完全分布式模式配置步骤:

配置hosts文件
新建Hadoop用户
指定名称节点和数据节点
向各个节点拷贝Hadoop

1 0