用cloudera manager安装impala全过程以impala、hive、Spark性能比较--------(一)初次尝试用cloudera manager安装impala

来源:互联网 发布:黑胡桃沙发价格 知乎 编辑:程序博客网 时间:2024/05/22 03:24

最近实验室老师安排对现有的热门大数据仓库impalahiveSpark的性能做一个横行比较,因为只是需要做横向比较,只是看看这几个热门技术到底哪个更快,所以决定在虚拟机上搭建环境。由于impala只能安装在cloudera公司的hadoop发行版上,所以我们用cloudera manager进行集群部署。

由于clouderahadoop与原生的hadoop有所区别,所以这次安装impala可以说相当曲折。我将以3篇文章来说明这次安装的过程。一:尝试用cloudera manager安装impala,虽然最后失败了,但为最后的成功打下了基础。二:手动安装CDH4impala,这次hadoop能正常运行,hive也能正常工作,但impala缺少log4j文件失败。三:用cloudera manager部署集群,启动impala服务,测试hiveimpala成功。

由于我们也是首次使用cloudera manager所以写的内用可能有一些不准确,如果有什么问题可以通过新浪微博和我交流。(西红水三 http://weibo.com/u/1831381457

好了下面介绍我的安装过程,首先介绍一下一些专有名词:

Cloudera 是一个公司名字。Cloudera manager是这个公司的一个产品,通过cloudera manager可以使集群中主机自动安装hadoophivezookeeperimpalal等组件,并可以控制启动服务。如图:

CDH4cloudera公司的hadoop发行版。MRv1mapreduce的一个较早版本。YARNmapreduce的一个新版本。MRv1YARN不能同时在一个主机中运行。

安装impala还需要一些条件:1.需要安装centos6.2系统。2.CDH4.1.0以上版本3.要在集群每个节点安装hive4.hive的元数据库要使用mysql5.每台主机hosts文件中都加入所有机器的IP地址和主机名的对应关系。好一切准备就绪可以安装cloudera manager了。

首先从cloudera网站下载cloudera manager安装文件cloudera-manager-installer.bin,这是个二进制文件,下载地址:https://ccp.cloudera.com/display/SUPPORT/Cloudera+Manager+Downloads。然后设置执行权限,chmod u+x cloudera-manager-installer.bin,关闭系统防火墙,service iptables stop,关闭selinuxsetenforce 0或修改/etc/selinux/configSELINUX=disabled;配置代理:在/etc/yum.conf加入如下内容:http_proxy=http://server:port。;最好在/etc/yum.conf增加timeout时间,timeout=55555。自己设置长点就行。接着就直接执行它安装。sudo./ cloudera-manager-installer.bin 安装过程中确保你这台机器联网。最后就是漫长的等待,我们用的是虚拟机,所以很慢用了1个多小时。安装后就可以在浏览器里输入http://localhost:7180/登陆cloudera manager管理界面,初始用户名是admin密码是admin

登陆clouderamanager管理界面后,首次登陆会有个安装向导,选择你要安装的主机,选择你要安装的服务,然后安装,clouderamanager会自动连接你要安装的主机,并通过ssh连接控制你的主机自动安装组件。我同时对集群的3台主机进行安装,但我们的虚机上同时只能有一台可以上网,所以其它2两台就显示失败,但没关系,先不用管哪2台失败的,等连网那台虚机所有组件安装成功,点击页面上的重新安装所有失败安装就可以重新安装其它2台虚机。等所有机器都安装完了,点击下一步会显示你的机器已经加入管理主机。本以为这时大功告成,谁知道问题出现了,但我点击“主机”选项时,没有任何管理的主机,重新添加主机,结果是一样的。查看集群中的主机,各种服务已经安装,单用jps查看却没有启动任何进程。我试了各种方法都没有解决,最后决定放弃clouderamanager自动安装,改用手动安装集群,然后再集群上手动安装impala

未完待续!!!!!!!

原创粉丝点击