Cloudera Manager (centos)安装详细介绍

来源:互联网 发布:windows kits 编辑:程序博客网 时间:2024/05/21 11:10

前奏1:首先介绍Cloudera的CDH和Apache的Hadoop的区别

Cloudera的CDH和Apache的Hadoop的区别  目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,CDH和Apache版本主要区别如下:

  (1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。

  (2)CDH3版本是基于Apache  hadoop  0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。
  (3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证 

  (4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。 
  (5)CDH支持Yum/Apt包,Tar包,RPM包,Cloudera Manager四种方式安装,Apache hadoop只支持Tar包安装。


  注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处:

    1、联网安装、升级,非常方便

    2、自动下载依赖软件包 
    3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
    4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。

Cloudera CDH、CM简化了hadoop的部署,对于hadoop监控及hadoop生态系统监控都是非常方便的。

cdh安装,只需要一键安装即可,

参考各个版本Linux单节点伪分布一键安装CDH5.1.X及提交wordcount到yarn高可靠文档


如果想安装hadoop生态系统,并且能够监控起来,Cloudera Manager安装是一个不错的选择

参考:Cloudera Manager5及CDH5在线(cloudera-manager-installer.bin)安装详细文档


如果是apache hadoop的安装则相对复杂些,在加上监控,难度就加大了。

参考hadoop2.2完全分布式最新高可靠安装文档

对于三个组件的安装参考hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结

从上面看出,整合方面就比较复杂些,所以cdh简化了不少部署

虽然CDH、CM(Cloudera Manager)简化了部署,但是hadoop原生也有自己的好处,版本更新快,不受限制,各有优点和缺点


前奏2:介绍Cloudera的CDH的生态系统

Cloudera 由来自 Facebook 、 谷歌 和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher) 、克里斯托弗·比塞格利亚 (Christophe Bisciglia) 、埃姆·阿瓦达拉 (Amr Awadallah) 以及现任 CEO 、甲骨文前高管迈克·奥尔森 (Mike Olson) 在2008 年创建。

首先来看下 Cloudera 的技术框架:


 主要有几大主要的组件:

1 、 Hbase:Hbase 是一个分布式的,扩展性很强的存储,主要受 G oogle 的Bigtable 的启发,可以参考《 实时分析系统 (HIVE/HBASE/IMPALA) 浅析》。

2 、 Impala : I mpala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互SQL 大数据查询工具, Impala 没有再使用缓慢的 Hive+MapReduce 批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由 Query Planner 、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase中用 SELECT 、 JOIN 和统计函数查询数据,从而大大降低了延迟。 Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。

3 、 Spark : spark 是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以 spark 现在非常热门,包括腾讯, UC ,淘宝都有团队在研究和应用。

相比 Hortonworks , Cloudera 包装的开源软件要显得少一些,可以参考文章《 hadoop 发行商介绍: Hortonworks 》 ,但是从目前业界的情况来看,cloudera 坚持了自己的技术,普遍认为 cloudera 的发展潜力更大,包括最近 intel 放弃自己的发行版本,转而支持 cloudera 。

从 Hortonworks 和 Cloudera 两家都支持的力度来看, Spark 是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。

除了 Hortonworks 和 Cloudera 两家主要的发型版提供商, Hadoop 发型领域还有MapR , EMC 等,各有特点。从大多数应用来说,选择  Cloudera 和 Hortonworks 就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。


问题导读:

1.安装需要做哪些准备?
2.如何安装CM?
3.如何通过CM安装CDH?
4.CM及CDH安装的过程都包含什么?



相信通过这篇文章大家都对Cloudera Manager及CDH安装有一个整体的认识

目 录
1           准备工作...........................................................................................................................................3
1.1       说明...............................................................................................................................................3
1.2       集群网络环境介绍..........................................................................................................................3
2           环境搭建...........................................................................................................................................5
2.1       设置IP...........................................................................................................................................5
2.2       设置hosts......................................................................................................................................5
2.3       关闭防火墙....................................................................................................................................6
2.4       关闭SElinux....................................................................................................................................8
2.5       设置机器名....................................................................................................................................8
3           ClouderaManager安装................................................................................................................... 11
3.1       下载Cloudera Manager安装文件................................................................................................... 11
3.2       下载Cloudera Manager所需的rpm包............................................................................................ 11
3.3       安装rpm文件............................................................................................................................... 11
3.4       安装CM....................................................................................................................................... 11
3.5       登录CM....................................................................................................................................... 12
4           ClouderaManager配置及本地源配置.............................................................................................. 13
4.1       配置config.ini文件........................................................................................................................ 13
4.2       配置本地源.................................................................................................................................. 14
5           Hadoop及其组件安装......................................................................................................................17
5.1       选择Cloudera版本........................................................................................................................ 17
5.2       选中受管理的主机........................................................................................................................ 17
5.3       选择安装方式(Cloudera推荐使用Parcel)................................................................................... 18
5.4       把Parcel分配到主机..................................................................................................................... 18
5.5       选择服务...................................................................................................................................... 19
5.6       测试数据库连接........................................................................................................................... 20
5.7       等待所有服务启动........................................................................................................................ 20

6           向集群增加节点............................................................................................................................... 22
6.1       添加主机...................................................................................................................................... 22
6.2       输入IP或主机名........................................................................................................................... 23
6.3       提供SSH登录凭据........................................................................................................................ 24
6.4       安装............................................................................................................................................. 24




使用Cloudera Manager安装Hadoop
运行环境软硬件环境l  主机操作系统:Windows 64 bit,双核4线程,主频2.2G,8G内存
l  虚拟软件:VMware®Workstation 9.0.0 build-812388
l  虚拟机操作系统:CentOs 64bit,单核,2G内存
l  JDK:1.7.0_45 64 bit
l  Hadoop:2.2.0 



集群网络环境集群包含三个节点:1个namenode,1个datanode,节点之间局域网连接,可以相互ping通。节点IP地址和主机名分布如下:
l  192.168.188.141  hadoo1 (namenode))
l  192.168.188.139  hadoo2 (datanode01)
l  192.168.188.140  hadoo3 (datanode03)

所有节点均是CentOS系统,防火墙iptables均禁用

环境搭建
本集群分为三个节点,先安装节点hadoop1(192.168.188.141),完成2.1~2.6步骤后,在步骤2.7中复制虚拟机并命名为hadoop2(192.168.188.139)和hadoop3(192.168.188.140)。


设置IP1.    点击System-->Preferences-->Network Connections,如下图所示:

 


2.    删除原来的连接信息,新建一个“”连接,设置该连接为手工方式,设置如下信息:

      IP地址: 10.88.147.221
      子网掩码: 255.255.255.0
      网关:     10.88.147.1
      DNS:    10.*.*.* (使用DNS上网需要设置)

 

3.    在命令行中查看设置的IP地址信息,如果不能够正确可以在执行2.5重启机器后再次确认:

 



设置Host文件1.    编辑/etc/hosts文件,设置IP地址与机器名的映射,设置信息如下:
l     10.88.147.141 hadoop1.localdomain
l    10.88.147.139 hadoop2.localdomain
l    10.88.147.140 hadoop2.localdomain

 




2.    使用如下命令对网络设置进行重启
sudo /etc/init.d/network restart


3.    验证设置是否成功
 


关闭防火墙
在Hadoop安装过程中需要关闭防火墙和SElinux,否则会异常

1.    service iptables status 查看防火墙状态,如下所示表示iptables已经开启
 



2.    使用如下命令关闭iptables,执行该命令后重启机器生效
chkconfig iptables off


关闭SElinux1.    使用getenforce命令查看是否关闭

 



2.    修改/etc/selinux/config 文件
将SELINUX=enforcing改为SELINUX=disabled,执行该命令后重启机器生效

 


设置机器名以root用户登录,使用 vi/etc/sysconfig/network 打开配置文件,修改主机名称为hadoop1

 


复制虚拟机关闭机器,复制当前节点两份,分别命名为:hadoop2和hadoop3


SSH无密码验证配置(这一步可省略)
3.    在三个节点中使用ssh-keygen -t rsa生成私钥和公钥;

 



4.    在三个节点中分别把公钥命名为authorized_keys_hadoop1、authorized_keys_hadoop2、authorized_keys_hadoop3;

 



5.    把两个从节点的公钥使用scp authorized_keys_hadoop2 jan@hadoop1:/home/jan/.ssh 命令传送到hadoop1节点的/home/jan/.ssh文件夹中;

 
 




6.    把三个节点的公钥信息保存到authorized_key文件中

使用cat authorized_keys_hadoop1 >> authorized_keys命令

 



7.    把该文件分发到其他两个从节点上
使用scp authorized_keys jan@hadoop2:/home/jan/.ssh把密码文件分发出去

 

 



8.    测试ssh免密码登录是否生效

 



Cloudera Manager安装
下载Cloudera Manager安装文件

Cloudera Manager的可以从如下网址获得:
http://archive.cloudera.com/cm5/installer/
这里选择Cloudera Manager 最新版5.0.1
http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

下载Cloudera Manager所需的rpm包
下载网址为:
http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.0.1/RPMS/x86_64/

安装rpm文件
l 将下载的rpm包放入文件夹rpm(文件夹名随意)
l cd  ./rpm(进入rpm目录)
l yum localinstall –-nogpgcheck  *.rpm(安装rpm包)

3.4 安装rpm文件l 进入cloudera-manager-installer.bin的下载目录
l chmod u+x cloudera-manager-installer.bin(给下载的bin文件权限)
l 执行 ./cloudera-manager-installer.bin(大约十分钟左右)

3.5登录CM浏览器输入localhost:7180初次登录 用户名:admin 密码:admin

 

Cloudera Manager文件配置及本地源配置
配置config.ini文件
修改主机名
修改前为:localhost   修改后为:localhost.localdomain

 




本地源配置
Parcel的可以从如下网址获得,下载.parcel文件和manifest.json文件:

http://archive.cloudera.com/cdh5/parcels/5.0.1/
因为这里用的是CentOS6.5,所以选择CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel
http://archive.cloudera.com/cdh5/parcels/5.0.1/CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel

注意:Parcel文件对应不同的系统版本

CentOS 6.X对应CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel
CentOS 5.X对应CDH-5.0.1-1.cdh5.0.1.p0.47-el5.parcel

l  把以下载的.parcel文件和manifest.json文件拷贝到/opt/cloudera/parcel-repo/文件夹下
l  新建文件命名为:CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha
l  打开manifest.json文件查看CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel对应的编号,并拷贝到CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha文件中

以下是manifest.json中CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel对应的编号,这里是:ec68971d2969a5a31e720a2a79ce7a7c1d38e397
{
           "parcelName":"CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel",
           "components": [
                {
                   "pkg_version": "0.7.0+cdh5.0.1+0",
                   "pkg_release": "1.cdh5.0.1.p0.30",
                   "name": "bigtop-tomcat",
                   "version": "6.0.37-cdh5.0.1"
                },
                {
                   "pkg_version": "0.9.0+cdh5.0.1+23",
                    "pkg_release":"1.cdh5.0.1.p0.25",
                   "name": "crunch",
                   "version": "0.9.0-cdh5.0.1"
                },



              .........


                {
                   "pkg_version": "0.9.0+cdh5.0.1+8",
                   "pkg_release": "1.cdh5.0.1.p0.25",
                   "name": "whirr",
                   "version": "0.9.0-cdh5.0.1"
                },
                {
                   "pkg_version": "3.4.5+cdh5.0.1+30",
                    "pkg_release":"1.cdh5.0.1.p0.31",
                   "name": "zookeeper",
                   "version": "3.4.5-cdh5.0.1"
                }
            ],
           "replaces": "IMPALA, SOLR, SPARK",
            "hash":"ec68971d2969a5a31e720a2a79ce7a7c1d38e397"
        }

l  现在本地源已配好,总之parcel-repo文件中包含一下三个文件:
CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel
CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha
Manifest.json

l  重启系统


Hadoop及其组件安装选择Cloudera版本


选中受管理的主机
 



选择安装方式(Cloudera推荐使用Parcel)

 


把Parcel分配到主机
 



 




添加服务
 


测试数据库连接  



等待所有服务开启等待所有服务开启,时间可能会有点长

 

 





向集群增加节点增加主机

 

输入IP或主机名
 


 

提供SSH登录凭据

 

安装
 


出处:http://www.aboutyun.com/thread-9190-1-1.html

0 0
原创粉丝点击