HIVE VS HBASE区别

来源:互联网 发布:画图软件儿童 编辑:程序博客网 时间:2024/06/05 17:02

Pre_knowledge:
ACID,指数据库事务正确执行的四个基本要素的缩写。包含:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)。一个支持事务(Transaction)的数据库,必需要具有这四种特性,否则在事务过程(Transaction processing)当中无法保证数据的正确性,交易过程极可能达不到交易方的要求。


Hive和HBase比较,就像谷歌和Facebook比较一样——尽管他们竞争在同一地盘(我们的私人信息),他们不提供相同的功能。对于大数据初学者来说,当试图理解Hive和HBase做什么和何时使用每个其中之一会存在疑惑,。让我们尝试和清晰起来。

  1. 两者分别是什么?

    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。Hive允许在HDFS上通过一种类SQL语言(HQL)查询数据。这种语言最终被转化为Map/Reduce任务.。虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询–因为它只能够在Haoop上批量的执行。

    Apache HBase是一种运行在HDFS之上的Key/Value系统。和Hive不一样,Hbase的能够在它的数据库上实时运行,而不是运行MapReduce任务。HBase被分区为表格,表格又被进一步分割为列簇。列簇必须使用schema定义,列簇将某一类型列集合起来(列不要求schema定义)。例如,“message”列簇可能包含:“to”, ”from” “date”, “subject”, 和”body”。每一个 key/value对在Hbase中被定义为一个cell,每一个key由row-key,列簇、列和时间戳组成。在HBase中,行是key/value映射的集合,这个映射通过row-key来唯一标识。Hbase利用Hadoop的基础设施,可以利用通用的设备进行水平的扩展。

  2. 特点

    Hive帮助熟悉SQL的人运行MapReduce任务。因为它是JDBC兼容的,同时,它也能够和现存的SQL工具整合在一起。运行Hive查询会花费很长时间,因为它会默认遍历表中所有的数据。虽然有这样的缺点,可以通过HIVE分区特性来控制一次遍历的数据量。分区允许在数据集上运行过滤查询,这些数据集存储在不同的文件夹内,查询的时候只遍历指定文件夹(分区)中的数据。例如,这种机制可以用来只处理在某一个时间范围内的文件,只要这些文件名中包括了时间格式。

    HBase通过存储key/value来工作。它支持四种主要的操作:增加或者更新行,查看一个范围内的cell,获取指定的行,删除指定的行、列或者是列的版本。版本信息用来获取历史数据(每一行的历史数据可以被删除,然后通过Hbase compactions就可以释放出空间)。虽然HBase包括表格,但是schema仅仅被表格和列簇所要求,列不需要schema。Hbase的表格包括增加/计数功能。

  3. 限制

    Hive目前不支持更新操作。除此之外,由于hive在hadoop上运行批量操作,通常是几分钟到几个小时才可以获取到查询的结果。Hive必须提供预先定义好的schema将文件和目录映射到列,并且Hive与ACID不兼容。

    HBase查询是通过特定的语言来编写的。类SQL的功能可以通过Apache Phonenix实现,但这是以必须提供schema为代价的。另外,Hbase也并不是兼容所有的ACID特性,虽然它支持某些特性。最后但最重要的是–为了运行Hbase,Zookeeper是必须的,zookeeper是一个用来进行分布式协调的服务,这些服务包括配置服务,维护元信息和命名空间服务。

  4. 应用场景

    Hive适合用来对一段时间内的数据进行分析查询,例如,用来计算趋势或者网站的日志。Hive不应该用来进行实时的查询。因为它需要很长时间才可以返回结果。

    Hbase非常适合用来进行大数据的实时查询。Facebook用Hbase进行消息和实时的分析。它也可以用来统计Facebook的连接数。

  5. 总结
    Hive和Hbase是两种基于Hadoop的不同技术–Hive是一种类SQL的引擎,运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。当然,这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive

    原文地址:Hive vs. HBase

0 0