《impala实战》读书笔记

来源:互联网 发布:淘宝类目怎么选择其他 编辑:程序博客网 时间:2024/06/08 08:52
最近公司在用impala,也读了贾传青的《impala实战》,总结下impala
1.最大的优点,cdh中和hive共用元数据,但是sql查询速度比hive处理快很多,目测最
少能节省一半的查询速度
2.没有使用MapReduce进行并行计算,中间结果不存入硬盘,impala更注重内存和网络IO的利用
3.缺点可能是需要注意机器的内存资源
4.要想查的快也需要分区,一般用常用字段进行分区,如年月日等,但要注意分区不能太多。
分区适应以下场合
4.1表数据量特别大,不能忍受读整个表
4.2总按照特定列进行查询
4.3分区列有一定的区分度
4.4数据经过ETL处理
5.文件格式

5.1text---lzo 直观、占用硬盘

5.2parquet---snappy(默认,压缩速度快).gzip(压缩比高)

5.3avro

5.4rcfile

5.5sequenceFile

5.6hbase外表


1 0
原创粉丝点击