新手安装hadoop伪分布式教程

来源：互联网发布：淘宝foreo旗舰店真假编辑：程序博客网时间：2024/04/29 16:25

安装环境
VirtualBox虚拟机
CentOS6.9系统
hadoop2.6.5（最新版一样，向下兼容低版本jdk）
jdk包 1.8
伪分布式就一台虚拟机

第一步
在VirtualBox创建一个CentOS虚拟机
附上镜像下载地址（最低的好像就是6.9其他的都没有）
https://mirrors.tuna.tsinghua.edu.cn
我下载的是mini版，没有图形界面的
安装的过程就不说了，百度就可以了。

我用的是host-only网络，就是主机-虚拟机之间互通，就不说了。

第二步
准备Linux环境
修改主机名字 vi /etc/sysconfig/network
这里写图片描述
HOSTNAME=后面的就是你自己设置的主机名字

查看本机ip地址 ifconfig
目前只有127.0.0.1本机网卡
这里写图片描述
自己修改成固定的ip地址
配置网络ip地址
命令vi /etc/sysconfig/network-scripts/ifcfg-etho

因为就在VirtualBox设置了一个网卡所以
（我的配置ip是在host-noly模式下配置的）
DEVICE=就填写eth0 自己查看自已改填写那个网卡
type类型ethernet网
bottproto静态ip static（就是ip不会更改）
IPADDR就是填写自己的ip
（一开始填写的192.168.1.101不通，因为VirtualBox下设置的host-noly的ipv4的网络掩码是192.168.56.1所以你要是想192.168.1.101ping通的话，把下面ipv4设置一下不懂原理百度host-only的模式怎么用的，
这里写图片描述）
NETMASK=255.255.255.0一般设置成这个

如果你设置的是桥接模式就要自己设置网关

设置完成之后重启网络服务
service network restart

第三步
配置主机名和ip地址的映射关系
修改配置文件 /etc/hosts
这里写图片描述
配置完成之后，重启主机名字
hastname hadoop.hubo1.cn（这个hadoop.hubo1.cn是第一步自己设置的主机名字）重启主机名字
然后查看主机名字输入命令 hostname与你自己设置的主机名字一样就映射成功了。

第四步
关闭防火墙服务，因为后面需要的9000端口防火墙没有开启这个端口，所以你要关闭防火墙，不关闭防火墙把需要的端口开启也行
我这里直接把防火墙关闭了

输入指令service iptables status查看防火墙的运行状态
关闭防火墙关闭 service iptables stop
但是开机防火墙还是会启动的
设置防火墙开机不启动chkconfig iptables –list
设置不启动 chkconfig iptables off
然后在查询一下service iptables status 是不是没有启动
第五步
jdk包的安装
上传就不说了，就说一下环境变量的配置吧
输入 vi /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_151 （自己的jdk包安装的目录）
export PATH=JAVAHOME/bin:PATH
export CLASSPATH=.:JAVAHOME/lib/dt.jar:JAVA_HOME/lib/tools.jar

修改之后重新加载环境变量source /etc/profile

然后上传hadoop的安装包
我将hadoop的安装包传到了自己创建的目录下 /bighadoop目录
简单说一下目录下面的文件夹作用
sbin:启动或停止hadoop相关服务的脚本
bin：对hadoop相关服务（HDFS/YARN）进行操作的脚本
etc：hadoop的配置文件目录
share：hadoop依赖的jar包和文档（可以删掉）
lib：hadoop的本地库（对数据进行压缩，解压缩功能的）

第六步
我弄的是伪分布式修改其中的五个配置文件就可以了修改的配置文件都是在hadoop/etc/hadoop下面
第一个文件 hadoop-env.sh
这里写图片描述
export JAVA_HOME=/usr/java/jdk1.8.0_151
修改成自己jdk的安装目录
第二个文件 core-site.xml
用户的配置文件，底层还有一个配置文件，但是修改用户的会覆盖

fs.defaultFS
hdfs://hadoop.1:9000设置这个之前一定要主机和ip之间的映射弄好

hadoop运行时产生数据的存储目录，不是临时数据

hadoop.tmp.dir
/bigdata/tmp

第三个文件hdfs-site.xml
指定hdfs存储数据的副本数量存储的几份

dfs.replication
1

修改这三个文件之后就可以运行hadoop 了
(执行命令前，也设置一下etc/profile，这样启动命令比较快
这里写图片描述
)
先执行jps查看进程只有一个Jps

执行命令start-dfs.sh
要输入三次root用户的密码（之后回说下免密码登陆怎么设置的）
再执行命令jps之后会多出三个进程
NameNode
DataNode
SeconderyNameNode
出现的话说明你设置的hadoop运行成功了

第四个文件mapred-site.xml
这个文件一开始是副本mapred-site.xml-template
自己重新命名一下就可以了
指令mapreduce编程模型运行在YARN上面

mapreduce.framework.name
yarn

第五个文件yarn-site.xml
指定yaen的老大resourcemanager的地址

yarn.resourcemanager.hostname
hadoop.1

mapreduce执行shuffle时获取数据的方式

yarn.nodemanager.aux-services
mapreduce_shuffle
将多台机器汇集到一台机器

复制的时候注意不要有汉字，，不让会报错的。

之后执行hdfs的初始化 hdfs namenode -format
会在/bigdata/下出现一个tmp目录
创建的一个tmp目录就是存放hadoop运行产生的数据
tmp/dfs/name 存放namenode管理的数据，就是存放的账本

之后执行命令start-yarn.sh
又回多两个进程
NodeManager
ResourceManager

之后就可以输入虚拟机的ip:50700h和ip:8088
访问两个页面就可以成功了

安装过程中出现问题的话，留下评论我会解答的！！

阅读全文

0 0