hive进阶

来源:互联网 发布:c编程题及答案 编辑:程序博客网 时间:2024/05/14 21:33

hive中易忽略知识点记录

说明:hive作为大数据分析和存贮中,搭建数据仓库最好的几个组件来说,无论是对于数据存贮(典型的hadoop生态圈的分布式文件存贮类型),还是说对于满足数据分析中要求的快速获取不同维度的数据,hive都扮演着不可忽略的角色

hive基本操作

   对于hive中的基本操作,如:新建数据库、新建表以及基本的hivesql这些操作,对于熟悉SQL的基本操作的童鞋,这部分应该不是什么问题,对于查询来说,无非就是增加了一些自定义的函数,UDF\UDTF\UDAF等,这部分在这里就不罗嗦了,如果需要的时候,再就这个项目专门进行梳理

外部表

    假如我们正在分析一个外部数据源的数据,但是我们又想要hive来进行分析,那该怎么做呢?    so easy!我们只需要建立一个外部表    create  external table if not exist test {    F1 STRING,    F2 STRING    }    row format delimited fields terminated by ','    location '/test/test.txt'关键词external表明建立的这个表是外部的,location表明具体的文件路径

注意:因为表是外部表,所以hive并没有把这个表作为它自己的私有财产,所以删除表并不会删除这些原始数据,但是描述表的元数据会被删除掉

order by 和sort by

hive中order by 和sql中的order by的用法和效果是一样的,其作用是会对查询结果进行一个全局排序,也就是说,对于一个很大的数据集,会对一个查询集起一个reduce进行处理
sort by是在每个reducer中进行排序,保证了在每一个reducer的结果都是局部有序的,但并非全局有序的,有时候利用sort 可以提高全局排序的效率

视图

视图可以保存一个查询并像对待表一样对这个查询进行操作,说白了,就是可以将嵌套查询里面经常需要执行的查询语句抽象出来,创建为一个视图,这样就缩短了查询的效率,因为在job执行计划的时候,hive会首先执行hive的视图,然后将视图产生的结果作为下一个查询的中间结果

分区

hive查询中,经常需要对整个表进行扫描,相比于oracle中,如果我们在设计表的时候,每天建一张表的话,后期的维护成本会很大,这时候就需要建分区表

调优

sequence file 存贮格式

压缩文件是为了更好的节约存贮空间,但是,在hadoop中存贮裸压缩文件的一个缺点是:这些文件是不可分割的。而可分割文件在MR的过程中,可以 划分成多个部分,由多个mapper并行执行。在hive中使用sequence file文件存贮的话,那么需要在create table的时候通过 stored as sequence指定就好

压缩级别分为none、record、block,其中block(块)压缩性能最好,用户可以在hadoop的mapred-site.xml中指定