Hadoop之伪分布式配置

来源:互联网 发布:sql server 2008 出错 编辑:程序博客网 时间:2024/05/20 20:05

伪分布式的配置

Hadoop的运行模式有3种:

1.单机(本地)运行模式
无需运行任何守护进程,所有程序都在单个JVM上执行,测试用
2.伪分布式
将所有的守护进程运行在一个节点
3.集群模式
1)完全分布式
不同的守护进程运行在不同的节点
2)HA
Namenode HA

3)联盟


本章介绍如何搭建hadoop第二种运行模式

1.系统环境

本章使用的centOS 6.4 64位作为系统环境,不太清楚的朋友请看Linux部分
Linux环境
1.修改主机名【不能数字开头,不能特殊字符】
# vi /etc/sysconfig/network

$ cat /etc/sysconfig/network
2.主机映射
# vi /etc/hosts

ip地址  主机名
3.windows下主机映射
C:/windows/system32/driver/hosts$ cat /etc/sysconfig/network-scripts/ifcfg-eth0
ONBOOT=yes
BOOTPROTO=static


2.jdk的配置

# mkdir /opt/software /opt/modules

/opt/software  存放*.tag.gz
/opt/modules    放置安装文件
# chown -Rwangjing:wangjing /opt/modules/ /opt/software/
安装jdk
  $ tar -zxf jdk-7u67-linux-x64.tar.gz  -C ../modules/
配置环境变量
 # vim /etc/profile
  #JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin
使配置生效
# source /etc/profile  
卸载openJDK
 # rpm -qa | grep jdk
 # rpm -e --nodeps   XXX.rpm   //不验证依赖进行卸载
 Linux 防火墙
 # service iptables status   ##查看防火墙状态
 iptables: Firewall is not running.
 # service iptables stop     ##关闭防火墙
 关闭开机启动防火墙
 #  chkconfig iptables off   ##不随机启动

 关闭安全子系统
 # vi /etc/sysconfig/selinux
 SELINUX=disabled


2.hadoop配置

1.安装hadoop(2.5版本,http://hadoop.apache.org/下载)
tar -zxf hadoop-2.5.0.tar.gz -C  /opt/modules/    

2.配置hadoop的java环境支持(修改w文件)
hadoop-env.sh 
mapred-env.sh 
yarn-env.sh
 

在这3个文件中都配置


export JAVA_HOME=/opt/modules/jdk1.7.0_67

3.配置hdfs(修改文件)

core.site.xml



hdfs-site.xml



4.格式化namenode,不要重复格式

sbin/hdfs namenode -format 确认这条命令后,hadoop-2.5.0目录下会多出data目录和logs目录



5.启动、查看hdfs守护进程

启动:

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

查看:



6.在浏览器上访问(主机名:50070),进行验证,能看到这个页面说明前面的配置是正常的(打开不了这个页面,可以去虚拟机自带火狐浏览器验证)


7.配置yarn、mapreduce

yarn.site.xml


mapreduce.site.xml



slaves(只需要配置主机名即可)


8.重新启动、查看hdfs、yarn守护进程

sbin/hadoop.daemon.sh start namenode

sbin/hadoop.daemon.sh start datanode

sbin/yarn.daemon.sh start resourcemanager

sbin/yarn.daemon.sh start nodemanager


图中所示为正常启动



9.测试

上传文件到input

首先创建input目录     bin/hadoop dfs -mkdir /input

把文件上传input       bin/hadoop dfs -put /home/wangjing/word.txt /input


上传成功


执行word.txt文件,并计算出文件中相同的字符串多少个

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/word.txt /output


输入主机名:8088,打开


执行成功

测试完成

原创粉丝点击