Hadoop in China2011参会总结

来源:互联网 发布:开淘宝怎么描述店铺 编辑:程序博客网 时间:2024/05/16 15:20

      参加Hadoop in China2011已经是两周前的事了,由于最近比较忙也没有对参会的内容进行总结。

大会分两天进行,上午基本上是大礼堂主题演讲,下午是各个技术方向的讲座。通过讲座对hadoop生态系统有了一个全面的了解:

Hive :

hive是一个基于Hadoop文件系统上的数据仓库架构。它为数据仓库管理提供了数据ETL(抽取,转化和加载)工具,数据存储管理和大型数据集的查询与分析能力
可以将结构化的数据文件映射为一张数据库表,并提供完整的HQL(类SQL)查询功能,可以将HQL语句转换为MapReduce任务进行运行。

Hbase: 一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群.

1.只有简单的字符串类型
2.只支持很简单的插入,查询,删除,清空等操作,不支持条件查询以及orderby,join等查询;
3.列可以动态增加,列为空则不存储数据,基于列的存储,节省存储空间;
4.会自动切分数据;
5.可以提供高并发读写操作的支持;
6.可伸缩性强

ZooKeeper

ZooKeeper 是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

应用场景:

数据发布与订阅
Name Service
分布通知/协调
分布式锁
集群管理
分布式队列

原创粉丝点击