Hadoop 资讯

来源：互联网发布：爱奇艺网络剧合作模式编辑：程序博客网时间：2024/04/30 07:27

impala 1.0 和hive相媲美的新技术。

Impala 1.0中的特性

Impala 1.0的特性详情可以参考此文档，在这里先看一下摘要。为了集合上述特性，他们完成了所有Hadoop上实现SQL的事项：用以避免网络瓶颈的本地处理、交互式响应、本地数据的单储存池以及可同时对相同数据做不同类型的处理：

支持ANSI-92 SQL所有子集，包括CREATE, ALTER, SELECT, INSERT, JOIN和 subqueries
支持分区join、完全分布式聚合以及完全分布式top-n查询
支持多种数据格式：Hadoop原生格式（pache Avro, SequenceFile, RCFile with Snappy, GZIP, BZIP或未压缩）、文本（未压缩或者LZO压缩）和Parquet（Snappy或未压缩）——最新及最先进的列式存储
支持所有CDH4 64位包：Ubuntu、Debian、LES
可以通过JDBC、ODBC、Hue GUI或者命令行shell进行连接
Kerberos认证及MR/Impala资源隔离

Impala当下的性能

对比测试版，Impala新版本的性能提升很大。为了更加的客观，Cloudera在公布基准数字之前，先对测试如何迎合现实中的用例做出了解释：

因为做BI和分析涉及允许一组不同的查询集合去生成报告，而Cloudera此次性能测试的重点就是使用多个现实世界中用户针对原生Hadoop格式文件的查询——而不是针对预加载专业文件格式的择优选取（择优选取在项目宣传中还是比较常见的）。此外，为了测试平台的全局性能，在测试单机性能的同时，还测试了多租户情景下Impala查询及其它并行处理作业的性能。最终测试的制定通过与用户和社区的共同努力完成，Cloudera该测试基准无与伦比，并得到了很有意义的结果（事实上，这些结果可能会产生误解）。

测试中其它一些重要的事项：

在单用户Impala与Hive/MapReduce的对比中，两方面的查询都运行在HDFS文件系统中Snappy-compressed SequenceFile文件上。
表格中包含了5年内总计1TB的数据。
查询分布在不同的时间段（1个月到5年）以及不同数量延时（分别是Interactive Exploration、Reports和Deep Analytics buckets）上。
查询涉及到多种级别的join（数量上从1到7）和聚合，同时还包含了复杂的多层次聚合和内联视图。
定期运行在多种本地文件格式的查询集来自几个客户中的一个。

下面是几秒内一个20节点集群单机上的结果，按照类型划分buckets，并计算出这些buckets上的几何平均数（这种情况下几何平均数一直优于算数平均值，因为每个查询的响应时间都可能不同）：

Impala 1.0 vs. Hive：查询响应时间（几何平均数，按类别）

通过“比Hive快多少倍”的范围表达上图结果：

下图显示在加入更多并行客户端后，Impala将达到超线性标度的提升：

上述图片显示随着并行客户端数量的增加，查询响应时间甚至飙升到之前的24倍。然而即使这样，Impala 1.0性能仍然高于单机Hive！（需要注意的是，并行是非常重要的一点，Cloudera声明将来会做更深度的基准测试）

以上的结果显示，区别于Hive，Impala 1.0适合现代的BI环境（在这种环境下，用户将并行的运行不同的查询类型）——Impala中，性能会随着你添加节点得到类似的提升。

Impala未来的工作

虽然Impala的性能已经相当出众，但是Cloudera认为在下两个版本中完全实现Parquet和多线程执行后，Impala性能将再次得到跨越性提升。

在Impala 1.0中，Cloudera已针对BI和分析查询对MapReduce/Hive性能做了大幅度改善，实现了BI在Hadoop上的可行。而借助与Hadoop的完全整合，Impala灵活性同样得以保证，同时还具备了远程查询上的TCO优势以及DBMS/Hadoop混合优势——省下了昂贵的冗余设施。

在释放了Impala 1.0之后，Cloudera将最终目标定义为：允许用户将所有数据存储在通一个灵活、开放以及原生的Hadoop文件格式，并且可以同时在同一个数据上运行他们所有的批处理MapReduce、机器学习、交互式SQL/BI、数学以及其它作业。

cloudera 释放impala 1.0 : 与hadoop的完全整合，各方面完爆Hive.

Hadoop的家族成员：Hive, HBase, Zookeeper, Avro, Pig, Ambari, Sqoop, Mahout, Chukwa

Hive: 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Pig: 是一个基于Hadoop的大规模数据分析工具，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

HBase: 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

Sqoop: 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的难度，提供高性能的分布式服务

Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法，解决了并行挖掘的问题。

Avro: 是一个数据序列化系统，设计用于支持数据密集型，大批量数据交换的应用。Avro是新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制

Ambari: 是一种基于Web的工具，支持Hadoop集群的供应、管理和监控。

Chukwa: 是一个开源的用于监控大型分布式系统的数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。

连接地址：http://www.csdn.net/article/2013-05-10/2815222-cloudera-release-impala-1-0

coludera 地址：http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Cloudera-Impala-Release-Notes/Cloudera-Impala-Release-Notes.html

http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/Installing-and-Using-Impala.html?scroll=concept_it2_jqh_pj