Ubuntu搭建Hadoop2.6.5（伪分布式）

来源：互联网发布：简单的sql查询语句编辑：程序博客网时间：2024/04/27 12:22

1.安装jdk

此步略过，可参考我发布的另一篇文章

2.下载hadoop2.6

hadoop2.6下载地址

3.配置环境变量

输入 vim /etc/profile 命令可打开profile文件（若使用的界面版本可在目录中直接打开此文件）
在文件末尾加入以下信息（命令中不要自行加入空格，否则没法使用）
export JAVA_HOME=/usr/lib/jvm/java1.8.0_112 【你的java目录】
export HADOOP_HOME=/home/hadoop【hadoop文件目录】
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
其中一定要把各个Home路径设置写在 PATH 路径的前面（因为PATH路径会用到这些路径）

执行命令，使环境变量生效：

source /etc/profile

在/etc/hosts 文件中添加本机ip和主机名

4.安装和配置免密码登录ssh

A.先判断是否已安装SSH

执行命令ssh localhost，若提示输入密码，即已安装

B．确认连接到互联网，输入命令安装

apt-get install openssh-server

C.查看在根目录下是否存在.ssh文件夹

切换到根目录下/root，使用命令 ls –a 查看

若没有则创建，使用命令

mkdir .ssh

D.产生密钥

在/root/.ssh 目录下执行ssh-keygen -t rsa –P ‘’ 注意有后面的单引号 一路回车，不要输入任何东西

E．将生成的公钥追加到授权的key中去

cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

F．验证安装是否成功

ssh –version

ssh localhost 不需要输入密码即安装成功

退出使用命令exit

5.配置hadoop

A．修改slaves文件，最好配置为ip

切换到hadoop文件夹下，

在slaves文件中加入从节点（此处伪分布式即为这台机器的ip）的ip

B．在hadoop-env.sh,加入环境变量

export JAVA_HOME=/usr/lib/jvm/java1.8.0_112

C．配置HDFS的地址及端口号，文件为core-site.xml

<property><name>hadoop.tmp.dir</name><value>/home/cr/hadoop/tmp</value> 设置临时文件夹，只要在home下即可</property><property><name>fs.defaultFS</name><value>hdfs://192.168.16.130:9000</value> 修改为本机IP地址</property>

D．修改HDFS文件的备份方式，及文件的默认路径

<property><name>dfs.replication</name><value>1</value> 备份数目，单节点是1，多节点一般为3</property><property><name>dfs.namenode.name.dir</name><value>/home/cr/hadoop/dfs/name</value> namenode所在路径</property><property><name>dfs.namenode.data.dir</name><value>/home/cr/hadoop/dfs/data</value> datanode所在路径</property><property><name>dfs.permissions</name><value>false</value> HDFS的权限</property>

E．配置mapred-site.xml

<property><name>mapreduce.framework.name</name><value>yarn</value> </property>

F．配置yarn-site.xml

<property><name>yarn.resourcemanager.hostname</name><value>localhost</value> 本机IP或者localhost</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>

6.格式化文件系统HDFS

进入hadoop下的bin文件夹，执行命令

./hadoop namenode -format

7.启动hadoop

进入sbin夹，执行./start-all.sh

8.验证是否安装成功

执行jps命令，会出现5个进程，包括jps一共六个进程

9.查看资源使用状态

http://localhost:8088(MapReduce 的Web页面)

http://localhost:50070(HDFS 的Web页面)

10.查看各节点状态

/home/xx/hadoop/bin/hadoop dfsadmin -report