trying new thing

来源:互联网 发布:js 触发事件 trigger 编辑:程序博客网 时间:2024/05/20 07:59

Ok ,now the main task is to set up a basic hadoop  environment.


I'm going to start with the most popular suppliser :cloudera.



CDH是世界上最完整,测试最多,最流行的apache hadoop发行版本。CDH是百分百apache授权的开源项目,也是对批处理,交互式SQL,交互式查询和机遇角色的权限控制的唯一hadoop解决方案。企业级的hadoop用的最多的就是cloudera。


就像是linux发行版不止提供给你linux一样,CDH提供的特性如下:可以扩展的存储和分布式计算,也有其他的组件,用户接口,还提供企业级的能力:安全,基于硬件和软件的一整套解决方案。



这一套的工作都已经完成,而且还提供给用户足够多的文档。如果你想要部署这一套hadoop方案,CDH提供一整套流程化的方案。



cloudera内部提供的内容:


CDH包括apache  hadoop的核心部分,而且还包括一些其他的开源项目,还提供消费者技术支持,管理的服务,在cloudera的企业级版本中,可以直接交付一个企业级的数据管理中心。


在线Nosql数据库:

HBase是一个分布式键仓库,可以帮助你建立快速分析十亿级别表的应用。

分析级SQL -Impala:

Impala是基于hadoop的大量并行SQL引擎领跑者。(老实说,这个我不知道是什么意思,SQL引擎,并行SQL,OK,以后可能有机会能碰到)

搜索-cloudera 搜索:

cloudera search可以让用户像是使用google  search那样搜索查询hadoop中的数据。


内存级别的机器学习和流处理-apache  spark


spark提供快速内存中的分析,和hadoop的实时流处理。(OK,机器学习,我现在也不知道是什么意思,流处理,也不知道,I will know it later ,I think)





0 0
原创粉丝点击