基于ubuntu16.04 Hadoop的集群配置

来源：互联网发布：isodata聚类算法 java 编辑：程序博客网时间：2024/06/01 08:54

【背景】：三台服务器，服务器不能联网，所有操作均为PC远程控制，服务器均安装了ubuntu16.04服务器版操作系统
【工具】：Xshell，winSCP

【服务器】（master）主机名：cdh01 IP:10.82.80.237

（slave1）主机名：cdh02 IP:10.82.80.238
（slave1）主机名：cdh03 IP:10.82.80.239

1.安装JDK（详细步骤省略，使用命令 java -version 显示JDK的版本信息即为安装成功）

Q：为什么要安装JDK？

A：因为Hadoop是用Java编写的程序，Hadoop的编译和MapReduce的运行都需要JDK

2.安装SSH（详细步骤省略）

Q：一定要安装SSH吗？

A：Hadoop本身是不需要安装SSH就可以使用的，但是事实上Hadoop集群常常拥有上百上千台机器，每次启动都需要输入密码登陆到每台DataNode就相当麻烦了

3.Hadoop集群的配置

3.1.下载Hadoop安装包，实验下载的是 hadoop-2.7.2.tar.gz ，下载之后用winSCP上传到服务器的 /opt 目录下

Q：为什么要放在这个目录下？

A：按照Linux 使用的习惯，大型软件习惯安装在 /opt 目录下，其他应用软件习惯于安装在 /usr 目录下

3.2.使用 tar -zxvf hadoop-2.7.2.tar.gz 解压安装包
3.3.配置修改/opt/hadoop-2.7.2/etc/hadoop中的配置文件

3.3.1.修改hadoop-env.sh：此处填写自己的jdk安装路径即可

此处也可以对不同的守护进程进行设置

3.3.2.修改core-site.xml：这是Hadoop的核心配置文件

fs.defaultFS 配置的是HDFS的地址及端口号,io.file.buffer.size配置的是读写缓存的大小

3.3.3.配置hdfs-site.sml的配置

dfs.namenode.name.dir配置的是NameNode存储名字空间及日志的位置（需要在指定的路径下新建这个目录）

dfs.datanode.name.dir配置的是DataNode存储数据块的位置

其他配置可以参见官方文档

3.3.4.配置mapred-site.xml

更详细的配置参见官方文档，未配置的选项通常会使用默认的值

3.3.5.配置yarn-site.xml

3.3.6.配置slaves文件

3.4.将整个hadoop-2.7.7目录复制到另外两台机器

scp -r /opt/hadoop-2.7.2 root@cdh02:/opt
scp -r /opt/hadoop-2.7.2 root@cdh03:/opt

3.5.格式化NameNode （初次启动时）

在hadoop的安装目录下执行 /bin/hdfs namenode -format

3.6在hadoop安装目录下启动HDFS和YARN

./sbin/start-hdfs.sh
./sbin/start-yarn.sh

3.7在web网页查看hadoop运行情况

NameNodehttp://nn_host:port/Default HTTP port is 50070.ResourceManagerhttp://rm_host:port/Default HTTP port is 8088.MapReduce JobHistory Serverhttp://jhs_host:port/Default HTTP port is 19888.

阅读全文

1 0

基于ubuntu16.04 Hadoop的集群配置

【背景】：三台服务器，服务器不能联网，所有操作均为PC远程控制，服务器均安装了ubuntu16.04服务器版操作系统【工具】：Xshell，winSCP

【服务器】（master）主机名：cdh01 IP:10.82.80.237

（slave1）主机名：cdh02 IP:10.82.80.238 （slave1）主机名：cdh03 IP:10.82.80.239

1.安装JDK（详细步骤省略，使用命令 java -version 显示JDK的版本信息即为安装成功）

2.安装SSH（详细步骤省略）

3.Hadoop集群的配置

3.1.下载Hadoop安装包，实验下载的是 hadoop-2.7.2.tar.gz ，下载之后用winSCP上传到服务器的 /opt 目录下

3.2.使用 tar -zxvf hadoop-2.7.2.tar.gz 解压安装包

3.3.配置 修改/opt/hadoop-2.7.2/etc/hadoop中的配置文件

3.4.将整个hadoop-2.7.7目录复制到另外两台机器

scp -r /opt/hadoop-2.7.2 root@cdh02:/opt

scp -r /opt/hadoop-2.7.2 root@cdh03:/opt

3.5.格式化NameNode （初次启动时）

在hadoop的安装目录下执行 /bin/hdfs namenode -format

3.6在hadoop安装目录下启动HDFS和YARN

./sbin/start-hdfs.sh

./sbin/start-yarn.sh

3.7在web网页查看hadoop运行情况

【背景】：三台服务器，服务器不能联网，所有操作均为PC远程控制，服务器均安装了ubuntu16.04服务器版操作系统
【工具】：Xshell，winSCP

（slave1）主机名：cdh02 IP:10.82.80.238
（slave1）主机名：cdh03 IP:10.82.80.239

3.3.配置修改/opt/hadoop-2.7.2/etc/hadoop中的配置文件