hadoop概述及集群搭建

来源：互联网发布：java高并发解决方案编辑：程序博客网时间：2024/06/17 16:15

Hadoop介绍

Hadoop是Apache旗下一个用Java语言实现开源的软件框架，是一个开发和运行处理大规模数据的软件平台，允许使用简单的编程模型在大量的机器集群上对大型数据集进行分布式处理。狭义上来说，Hadoop指一个包含HDFS、YARN、MapReduce三个核心组件的软件框架，HDFS负责存储海量数据，YARN负责资源任务调度，MapReduce负责计算海量数据。广义上来说，Hadoop已然是一个包含HIVE、Hbase、ZooKeeper、Flume等项目的生态系统。

Hadoop的优势

高扩展：Hadoop是在计算机集群中分配数据并完成数据处理的，集群可扩展至数以千计的节点中。
低成本：Hadoop通过价格低廉的机器组成服务器集群来处理分发数据。
高效率：通过并发数据，Hadoop可在节点间动态平行的移动数据，使得速度很快。
高可靠：能自动维护数据的多份复制，并且能在任务失败后自动的重新部署数据任务。

Hadoop的优势另其在国内外的各行各业都受到了欢迎，如金融行业的个人征信分析、证券行业的投资模型分析、电信行业的用户上网行为分析等等。

搭建Hadoop集群

1.准备Linux环境

1.1修改各个虚拟机主机名

vi /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=node-1

1.2修改主机名和IP的映射关系

vi /etc/hosts

192.168.171.140 node-1
192.168.171.141 node-2
192.168.171.142 node-3

1.3关闭防火墙

#查看防火墙状态
service iptables status
#关闭防火墙
service iptables stop
#查看防火墙开机启动状态
chkconfig iptables --list
#关闭防火墙开机启动
chkconfig iptables off

1.4.配置ssh免登陆

#生成ssh免登陆密钥
yum list installed | grep
ssh-keygen -t rsa （四个回车）
执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id node-2

1.5 同步集群时间

网络同步：
yum install ntpdate
ntpdate cn.pool.ntp.org

2.安装JDK

2.1上传jdk

rz jdk-8u65-linux-x64.tar.gz

2.2解压jdk

tar -zxvf jdk-8u65-linux-x64.tar.gz -C /root/apps

2.3将java添加到环境变量中

vim /etc/profile
#在文件最后添加
export JAVA_HOME=/export/software/java
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

#刷新配置
source /etc/profile

3.安装hadoop2.7.4

上传hadoop的安装包到服务器
hadoop-2.7.4-with-centos-6.7.tar.gz
解压安装包
tar zxvf hadoop-2.7.4-with-centos-6.7.tar.gz

注意：hadoop2.x的配置文件目录：$HADOOP_HOME/etc/hadoop

3.1配置hadoop

第一个：hadoop-env.sh

vi hadoop-env.sh
export JAVA_HOME=/export/software/java

第二个：core-site.xml


<property>
<name>fs.defaultFS</name>
<value>hdfs://node-1:9000</value>
</property>


<property>
<name>hadoop.tmp.dir</name>
<value>/export/data/hadoop</value>
</property>

第三个：hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node-2:50090</value>
</property>

第四个：mapred-site.xml

mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml


<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

第五个：yarn-site.xml


<property>
<name>yarn.resourcemanager.hostname</name>
<value>node-1</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

第六个：slaves文件，里面写上从节点所在的主机名字

vi slaves
node-21
node-22
node-23

3.2将hadoop添加到环境变量

vim /etc/proflie
export JAVA_HOME=/export/software/java
export HADOOP_HOME=/export/software/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

3.3格式化namenode（本质是对namenode进行初始化）

hdfs namenode -format (hadoop namenode -format)

3.4启动hadoop

先启动HDFS
sbin/start-dfs.sh

再启动YARN
sbin/start-yarn.sh

3.5将hadoop文件夹分发到从节点

scp -r /export/software/hadoop root@node-2:/export/software

scp -r /export/software/hadoop root@node-3:/export/software

配置从节点的环境变量

4验证是否启动成功

使用jps命令验证

27408 NameNode
28218 Jps
27643 SecondaryNameNode (secondarynamenode)
28066 NodeManager
27803 ResourceManager
27512 DataNode

http://node-1:50070 （HDFS管理界面）
http://node-1:8088 （MR管理界面）

阅读全文

0 0