Hadoop 资讯

来源:互联网 发布:爱奇艺网络剧合作模式 编辑:程序博客网 时间:2024/04/30 07:27
impala 1.0 和hive相媲美的新技术。

Impala 1.0中的特性

Impala 1.0的特性详情可以参考此文档,在这里先看一下摘要。为了集合上述特性,他们完成了所有Hadoop上实现SQL的事项:用以避免网络瓶颈的本地处理、交互式响应、本地数据的单储存池以及可同时对相同数据做不同类型的处理:

  • 支持ANSI-92 SQL所有子集,包括CREATE, ALTER, SELECT, INSERT, JOIN和 subqueries
  • 支持分区join、完全分布式聚合以及完全分布式top-n查询
  • 支持多种数据格式:Hadoop原生格式(pache Avro, SequenceFile, RCFile with Snappy, GZIP, BZIP或未压缩)、文本(未压缩或者LZO压缩)和Parquet(Snappy或未压缩)——最新及最先进的列式存储
  • 支持所有CDH4 64位包:Ubuntu、Debian、LES
  • 可以通过JDBC、ODBC、Hue GUI或者命令行shell进行连接
  • Kerberos认证及MR/Impala资源隔离

Impala当下的性能

对比测试版,Impala新版本的性能提升很大。为了更加的客观,Cloudera在公布基准数字之前,先对测试如何迎合现实中的用例做出了解释:

因为做BI和分析涉及允许一组不同的查询集合去生成报告,而Cloudera此次性能测试的重点就是使用多个现实世界中用户针对原生Hadoop格式文件的查询——而不是针对预加载专业文件格式的择优选取(择优选取在项目宣传中还是比较常见的)。此外,为了测试平台的全局性能,在测试单机性能的同时,还测试了多租户情景下Impala查询及其它并行处理作业的性能。最终测试的制定通过与用户和社区的共同努力完成,Cloudera该测试基准无与伦比,并得到了很有意义的结果(事实上,这些结果可能会产生误解)。

测试中其它一些重要的事项:

  • 在单用户Impala与Hive/MapReduce的对比中,两方面的查询都运行在HDFS文件系统中Snappy-compressed SequenceFile文件上。
  • 表格中包含了5年内总计1TB的数据。
  • 查询分布在不同的时间段(1个月到5年)以及不同数量延时(分别是Interactive Exploration、Reports和Deep Analytics buckets)上。
  • 查询涉及到多种级别的join(数量上从1到7)和聚合,同时还包含了复杂的多层次聚合和内联视图。
  • 定期运行在多种本地文件格式的查询集来自几个客户中的一个。

下面是几秒内一个20节点集群单机上的结果,按照类型划分buckets,并计算出这些buckets上的几何平均数(这种情况下几何平均数一直优于算数平均值,因为每个查询的响应时间都可能不同):


Impala 1.0 vs. Hive:查询响应时间(几何平均数,按类别)

通过“比Hive快多少倍”的范围表达上图结果:


下图显示在加入更多并行客户端后,Impala将达到超线性标度的提升:


上述图片显示随着并行客户端数量的增加,查询响应时间甚至飙升到之前的24倍。然而即使这样,Impala 1.0性能仍然高于单机Hive!(需要注意的是,并行是非常重要的一点,Cloudera声明将来会做更深度的基准测试)

以上的结果显示,区别于Hive,Impala 1.0适合现代的BI环境(在这种环境下,用户将并行的运行不同的查询类型)——Impala中,性能会随着你添加节点得到类似的提升。

Impala未来的工作

虽然Impala的性能已经相当出众,但是Cloudera认为在下两个版本中完全实现Parquet和多线程执行后,Impala性能将再次得到跨越性提升。

在Impala 1.0中,Cloudera已针对BI和分析查询对MapReduce/Hive性能做了大幅度改善,实现了BI在Hadoop上的可行。而借助与Hadoop的完全整合,Impala灵活性同样得以保证,同时还具备了远程查询上的TCO优势以及DBMS/Hadoop混合优势——省下了昂贵的冗余设施。

在释放了Impala 1.0之后,Cloudera将最终目标定义为:允许用户将所有数据存储在通一个灵活、开放以及原生的Hadoop文件格式,并且可以同时在同一个数据上运行他们所有的批处理MapReduce、机器学习、交互式SQL/BI、数学以及其它作业。



cloudera 释放impala 1.0 : 与hadoop的完全整合,各方面完爆Hive.


Hadoop的家族成员:Hive, HBase, Zookeeper, Avro, Pig, Ambari, Sqoop, Mahout, Chukwa

  • Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  • Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。
  • HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
  • Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  • Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务
  • Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
  • Avro: 是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制
  • Ambari: 是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。
  • Chukwa: 是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。


连接地址:http://www.csdn.net/article/2013-05-10/2815222-cloudera-release-impala-1-0


coludera 地址:http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Cloudera-Impala-Release-Notes/Cloudera-Impala-Release-Notes.html


http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/Installing-and-Using-Impala.html?scroll=concept_it2_jqh_pj

原创粉丝点击