Apache Hadoop伪分布式安装

来源：互联网发布：达梦数据库登录编辑：程序博客网时间：2024/06/15 21:50

Apache Hadoop伪分布式安装
操作系统：CentOS 6.5
连接工具：XShell，root用户登录虚拟机
安装包：
- JDK，版本：jdk-7u71-linux-x64.gz
下载地址：http://www.oracle.com/technetwork/java/javase/downloads
- Hadoop，版本：hadoop-2.6.4.tar.gz
下载地址：http://hadoop.apache.org/releases.html

一. 准备工作
1.关闭防火墙

service iptables stopservice iptables status (检查防火墙是否关闭)

2.关闭防火墙自启动

chkconfig iptables off
chkconfig –list | grep iptables (检查防火墙是否关闭自动运行)

3.设置主机名
vi /etc/sysconfig/network
这里写图片描述
NETWORKING=yes
HOSTNAME=hadoop
注：设置主机名永久生效，需要重新启动才能看到效果，可以通过hostname hadoop命令设置一次生效，这样就不需要重启了，使用hostname，查看设置的主机名。
4.设置IP地址与主机名绑定
vi /etc/hosts
这里写图片描述
Windows环境
以管理员的身份编辑C:\Windows\System32\drivers\etc\hosts

5.设置SSH免密码登录
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
二. 安装JDK
1. 解压缩安装包（需要跳转到安装包所在目录执行此命令）
tar -xvf jdk-7u71-linux-x64.gz
2. 配置环境变量
vi ~/.bash_profile（仅对当前用户生效）
这里写图片描述
3. 使环境变量生效
source ~/.bash_profile
4. 验证JDK是否安装成功
java -version

三. 安装Hadoop
1. 解压缩安装包（需要跳转到安装包所在目录执行此命令）
tar -xvf hadoop-2.6.4.tar.gz
2. 配置环境变量

3. 使环境变量生效
source ~/.bash_profile
4. 配置hadoop配置文件（需要跳转到hadoop安装目录/etc/hadoop）
（1）hadoop-env.sh，记录脚本中要用到的环境变量，以运行Hadoop。
vi hadoop-env.sh
这里写图片描述
export JAVA_HOME=/home/topsec/software/jdk1.7.0_71
（2）core-site.xml，Hadoop Core的配置项，例如HDFS和MapReduce常用的I/O设置等。
vi core-site.xml

<configuration> <property>   <name>fs.defaultFS</name>   <value>hdfs://hadoop:9000</value> </property> <property>   <name>hadoop.tmp.dir</name>   <value>/home/topsec/hadoopdata</value> </property></configuration>

（3）hdfs-site.xml，Hadoop守护进程的配置项，包括namenode，辅助namenode和datanode。
vi hdfs-site.xml

<configuration> <property>   <name>dfs.replication</name>   <value>1</value> </property></configuration>

(4)yarn-env.sh

vi yarn -env.sh
这里写图片描述

export JAVA_HOME=/home/topsec/software/jdk1.7.0_71

(5)yarn-site.xml
vi yarn-site.xml
这里写图片描述

<?xml version="1.0"?><configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.address</name><value>hadoop:18040</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>hadoop:18030</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value> hadoop:18025</value></property><property><name>yarn.resourcemanager.admin.address</name><value> hadoop:18141</value></property><property><name>yarn.resourcemanager.webapp.address</name><value> hadoop:18088</value></property> </configuration>

(6)mapred-site.xml，MapReduce守护进程的配置项，包括jobtracker和tasktracker。

这里写图片描述

cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
这里写图片描述

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property></configuration>

5.格式化namenode，建立namenode自己的文件结构

hadoop namenode -format

6.启动HDFS
1.分步启动：

      start-dfs.sh      start-yarn.sh

2.一次全部启动：

      start-all.sh

7.查看进程，检查HDFS是否启动成功

jps

这里写图片描述

HDFS的进程：
NameNode
DataNode
SecondaryNameNode
Yarn的进程：
ResourceManager
NodeManager

阅读全文

0 0