Impala简介（整理）

来源：互联网发布：如何看待人工智能编辑：程序博客网时间：2024/06/06 17:33

一、定义（来自百度百科）

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

二、Impala组成

1、客户端：包括JDBC、ODBC、Hue、Impala Shell等，用于执行查询或完成管理任务；

2、Hive Metastore：存储可用于Impala数据的信息，包括可用数据库及其结构。当执行Impala Sql语句进行schema对象的创建、修改及删除，或加载数据到表中等操作时，相关元数据的变化，通过单独的catalog服务自动广播到所有Impala节点；

3、Cloudera Impala（Impalad进程）：运行于数据节点的Impala程序，用于协调和执行查询。每一个Impala的实例可以获取、解析以及协调Impala客户端传来的查询。查询是被分布到各Impala节点间，这些节点作为workers，并行执行查询片段；

4、HDFS、HBase：数据的实际存储位置。

三、Impala查询执处理过程

1、用户程序通过JDBC、ODBC、Impala Shell等Impala 客户端发送Sql语句给Impala；

2、用户程序连接到集群中任意Impalad进程，这一进程作为整个查询的协调器；

3、Impala解析、分析查询，确定哪些任务由集群中哪一Impalad实例执行，并生成最优执行计划；

4、Impalad实例访问对应HDFS、HBase服务，获取数据；

5、每一个Impalad实例将数据返回给协调器Impalad，由其发送结果给客户端。

四、优点（来自百度百科）

1、Impala不需要把中间结果写入磁盘，省掉了大量的I/O开销。

2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢（默认每个心跳间隔是3秒钟），Impala直接通过相应的服务进程来进行作业调度，速度快了很多。

3、Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式，而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶，因此可做更多的查询优化，从而省掉不必要的shuffle、sort等开销。

4、通过使用LLVM来统一编译运行时代码，避免了为支持通用编译而带来的不必要开销。

5、用C++实现，做了很多有针对性的硬件优化，例如使用SSE指令。

6、使用了支持Data locality的I/O调度机制，尽可能地将数据和计算分配在同一台机器上进行，减少了网络开销。

3 0