新手安装hadoop伪分布式教程

来源:互联网 发布:淘宝foreo旗舰店真假 编辑:程序博客网 时间:2024/04/29 16:25

安装环境
VirtualBox虚拟机
CentOS6.9系统
hadoop2.6.5(最新版一样,向下兼容低版本jdk)
jdk包 1.8
伪分布式就一台虚拟机

第一步
在VirtualBox创建一个CentOS虚拟机
附上镜像下载地址(最低的好像就是6.9其他的都没有)
https://mirrors.tuna.tsinghua.edu.cn
我下载的是mini版,没有图形界面的
安装的过程就不说了,百度就可以了。

我用的是host-only网络,就是主机-虚拟机之间互通,就不说了。

第二步
准备Linux环境
修改主机名字 vi /etc/sysconfig/network
这里写图片描述
HOSTNAME=后面的就是你自己设置的主机名字

查看本机ip地址 ifconfig
目前只有127.0.0.1本机网卡
这里写图片描述
自己修改成固定的ip地址
配置网络ip地址
命令vi /etc/sysconfig/network-scripts/ifcfg-etho
这里写图片描述
因为就在VirtualBox设置了一个网卡所以
(我的配置ip是在host-noly模式下配置的)
DEVICE=就填写eth0 自己查看自已改填写那个网卡
type类型ethernet网
bottproto静态ip static(就是ip不会更改)
IPADDR就是填写自己的ip
(一开始填写的192.168.1.101不通,因为VirtualBox下设置的host-noly的ipv4的网络掩码是192.168.56.1所以你要是想192.168.1.101ping通的话,把下面ipv4设置一下不懂原理百度host-only的模式怎么用的,
这里写图片描述
NETMASK=255.255.255.0一般设置成这个

如果你设置的是桥接模式就要自己设置网关

设置完成之后重启网络服务
service network restart

第三步
配置主机名和ip地址的映射关系
修改配置文件 /etc/hosts
这里写图片描述
配置完成之后,重启主机名字
hastname hadoop.hubo1.cn(这个hadoop.hubo1.cn是第一步自己设置的主机名字) 重启主机名字
然后查看主机名字 输入命令 hostname与你自己设置的主机名字一样就映射成功了。

第四步
关闭防火墙服务,因为后面需要的9000端口防火墙没有开启这个端口,所以你要关闭防火墙,不关闭防火墙把需要的端口开启也行
我这里直接把防火墙关闭了

输入指令service iptables status查看防火墙的运行状态
关闭防火墙关闭 service iptables stop
但是开机防火墙还是会启动的
设置防火墙开机不启动chkconfig iptables –list
设置不启动 chkconfig iptables off
然后在查询一下service iptables status 是不是没有启动
第五步
jdk包的安装
上传就不说了,就说一下环境变量的配置吧
输入 vi /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_151 (自己的jdk包安装的目录)
export PATH=JAVAHOME/bin:PATH
export CLASSPATH=.:JAVAHOME/lib/dt.jar:JAVA_HOME/lib/tools.jar

修改之后重新加载环境变量source /etc/profile

然后上传hadoop的安装包
我将hadoop的安装包传到了自己创建的目录下 /bighadoop目录
简单说一下目录下面的文件夹作用
sbin:启动或停止hadoop相关服务的脚本
bin:对hadoop相关服务(HDFS/YARN)进行操作的脚本
etc:hadoop的配置文件目录
share:hadoop依赖的jar包和文档(可以删掉)
lib:hadoop的本地库(对数据进行压缩,解压缩功能的)

第六步
我弄的是伪分布式 修改其中的五个配置文件就可以了修改的配置文件都是在hadoop/etc/hadoop下面
第一个文件 hadoop-env.sh
这里写图片描述
export JAVA_HOME=/usr/java/jdk1.8.0_151
修改成自己jdk的安装目录
第二个文件 core-site.xml
用户的配置文件,底层还有一个配置文件,但是修改用户的会覆盖
这里写图片描述
fs.defaultFS
hdfs://hadoop.1:9000设置这个之前一定要主机和ip之间的映射弄好

hadoop运行时产生数据的存储目录,不是临时数据

hadoop.tmp.dir
/bigdata/tmp

第三个文件hdfs-site.xml
指定hdfs存储数据的副本数量存储的几份

dfs.replication
1

修改这三个文件之后就可以运行hadoop 了
(执行命令前,也设置一下etc/profile,这样启动命令比较快
这里写图片描述
)
先执行jps查看进程只有一个Jps

执行命令start-dfs.sh
要输入三次root用户的密码(之后回说下免密码登陆怎么设置的)
再执行命令jps之后会多出三个进程
NameNode
DataNode
SeconderyNameNode
出现的话说明你设置的hadoop运行成功了

第四个文件mapred-site.xml
这个文件一开始是副本mapred-site.xml-template
自己重新命名一下就可以了
指令mapreduce编程模型运行在YARN上面

mapreduce.framework.name
yarn

第五个文件yarn-site.xml
指定yaen的老大resourcemanager的地址

yarn.resourcemanager.hostname
hadoop.1

mapreduce执行shuffle时获取数据的方式

yarn.nodemanager.aux-services
mapreduce_shuffle
将多台机器汇集到一台机器

复制的时候注意不要有汉字,,不让会报错的。

之后执行hdfs的初始化 hdfs namenode -format
会在/bigdata/下出现一个tmp目录
创建的一个tmp目录 就是存放hadoop运行产生的数据
tmp/dfs/name 存放namenode管理的数据,就是存放的账本

之后执行命令start-yarn.sh
又回多两个进程
NodeManager
ResourceManager

之后就可以输入虚拟机的ip:50700h和ip:8088
访问两个页面就可以成功了

安装过程中出现问题的话,留下评论我会解答的!!

原创粉丝点击