Impala简介(整理)
来源:互联网 发布:如何看待人工智能 编辑:程序博客网 时间:2024/06/06 17:33
一、定义(来自百度百科)
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。
二、Impala组成
1、客户端:包括JDBC、ODBC、Hue、Impala Shell等,用于执行查询或完成管理任务;
2、Hive Metastore:存储可用于Impala数据的信息,包括可用数据库及其结构。当执行Impala Sql语句进行schema对象的创建、修改及删除,或加载数据到表中等操作时,相关元数据的变化,通过单独的catalog服务自动广播到所有Impala节点;
3、Cloudera Impala(Impalad进程):运行于数据节点的Impala程序,用于协调和执行查询。每一个Impala的实例可以获取、解析以及协调Impala客户端传来的查询。查询是被分布到各Impala节点间,这些节点作为workers,并行执行查询片段;
4、HDFS、HBase:数据的实际存储位置。
三、Impala查询执处理过程
1、用户程序通过JDBC、ODBC、Impala Shell等Impala 客户端发送Sql语句给Impala;
2、用户程序连接到集群中任意Impalad进程,这一进程作为整个查询的协调器;
3、Impala解析、分析查询,确定哪些任务由集群中哪一Impalad实例执行,并生成最优执行计划;
4、Impalad实例访问对应HDFS、HBase服务,获取数据;
5、每一个Impalad实例将数据返回给协调器Impalad,由其发送结果给客户端。
四、优点(来自百度百科)
1、Impala不需要把中间结果写入磁盘,省掉了大量的I/O开销。
2、省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。
3、Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优化,从而省掉不必要的shuffle、sort等开销。
4、通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。
5、用C++实现,做了很多有针对性的硬件优化,例如使用SSE指令。
6、使用了支持Data locality的I/O调度机制,尽可能地将数据和计算分配在同一台机器上进行,减少了网络开销。
- Impala简介(整理)
- impala简介
- Impala简介
- Impala 简介
- Impala简介
- Impala实践之十:impala最佳实践(转、译、整理)
- Impala亲密接触之10:impala最佳实践(转、译、整理)
- impala一些乱七八糟的整理
- Android(简介整理)
- Cloudera impala简介及安装详解
- impala
- IMPALA
- impala
- Impala
- Impala
- Impala
- impala
- Impala
- STL(1) - Lambda表达式
- HBase的按照
- 与时俱进的Java——《写给大忙人看的Java核心技术》
- HDU 3033 I love sneakers!(分组背包/至少选一个)
- Okttp3.0简单的二次回调封装
- Impala简介(整理)
- 试图加载格式不正确的程序。 (异常来自 HRESULT:0x8007000B),win32 error 50
- PHP magic_quotes_gpc的详细使用方法
- Tsinsen A1109 三角形
- 重建二叉树
- java学习笔记(五)
- YD 督促训练 判断这年五一几天假期
- MongoDB用户权限设置
- jQuery实现图片轮播特性。使用animate函数