《Hive编程指南》学习笔记

来源：互联网发布：百分百综合采集软件编辑：程序博客网时间：2024/05/16 08:43

以下内容记录了《Hive编程指南》各个章节的主要知识要点，内容会不定期增加

第3章数据类型和文件格式

Hive支持基本数据类型和struct、map、array三种集合类型，三种集合类型的数据在文件存储时将使用不同的分隔符，默认的记录和字段分割符如表3-3所示(p44)，分割符还可以由用户自行定义(p46上方语句)。

传统数据库是写时模式，即数据在写入数据库时对模式进行检查，如果写入的数据与定义的模式不对，将会报错，hive是读时模式，即写入数据时不会对模式进行检查，在读数据的时候，如果模式和文件内容不匹配，将会极力尝试将各种错误恢复过来，如果每行记录的字段个数小于定义的字段个数，那么没有数据的字段将显示null。

第4章 HiveQL：数据定义

Hive不支持行级插入、更新、删除操作，也不支持事务。

创建数据库或表时，最好使用if not exists，删除时使用if exists。

Hive默认的数据库目录是/user/hive/warehourse/*.db/table_name/partition_name，用户也可以使用location指定位置(p50)。

创建数据库时可以使用comment命令添加注释，可以使用desc database db_name命令可以查看数据库的描述信息及存储位置，更进一步，可以使用with dbproperties为数据库增加键-值对属性信息，这个命令很有用，参考p51。

Hive不允许用户删除一个包含有表的数据库。

desc formatted table_name可以查看表的详细信息，包括字段、存储位置、创建人、创建时间等，p53提到的last_modified_by和last_modified_time属性没有看到，是因为用户没有自定义表属性，所以这两个属性不会显示在表的详细信息中(p55)。

如果用户不想使用默认的表路径，那么最好使用外表。

第5章 HiveQL: 数据定义

修改column属性（列名，列字段类型，列注释）：

ALTER TABLE table_name

CHANGE [COLUMN] col_old_name col_new_name

column_type [COMMENT col_comment] [FIRST|AFTER column_name]

第6章 HiveQL: 查询

select之后的表达式可以是列名、列名的某种索引、正则表达式、算术表达式、内置基本函数、内置聚合函数、表生成函数以及用户自定义函数。

Hive内置的函数有很多，需要在使用中慢慢熟悉(p82-92)。

使用列别名和表别名是非常有用的(p93)。

case...when...then句式的用法(p93)。

在$HOME/./hiverc配置文件中增加set hive.exec.mode.loacl.auto=true可以使得hive可能避免进行MapReduce，否则所有查询都将使用MapReduce来执行(p94)。

不能在where语句中使用列别名(p95)，但可以使用表别名，where中可以使用LIKE和RLIKE谓词操作符，LIKE只能用于SQL下的简单正则表达式比较，RLIKE可使用复杂的java正则表达式，select之后的表达式也可以使用SQL下的简单正则表达式。

GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列对结果进行分组，然后对每个组执行聚合操作。

having也是用于条件过滤，但与where不同的是，having是与group by搭配使用，对group by产生的分组进行条件过滤，与where的区别与联系，见p100。

Hive支持通常的sql join语句，但仅支持等值连接，不支持sql的非等值连接(p101)。

多表连接不懂(p102)。

使用关键字join，但不指定join key时，将进行笛卡尔积连接，使用cross join显示指定笛卡尔连接，要使用内连接最好使用inner join，而不是join，如果使用join on，到底是直接执行内连接，还是先笛卡尔连接再过滤？(p108提示上方)

最好设置属性hive.mapred.mode为ture，因为hive中的表都很大，笛卡尔积的结果更大，将会消耗很多时间。

map-side join主要于为了优化join查询，将小表直接放入内存中，只进行map，不进行reduce，没看懂(p108)。

order by将对查询结果进行全局排序，sort by只对每个reducer中的结果进行排序，如果一次查询中reducer的个数为1，那么两种方法的结果是一样的，否则不一样。sort by只对每个reducer中的结果进行排序，这样可能导致不同reducer中输出的结果是重复的，distribute by可以解决这个问题，它控制map的输出在reducer中是如何划分的，可以保证相同字段的记录分配到同一个reducer中(p111)，这样可以保证输出的数据是全局排序的，但是会失去sort by的并行性(p112)。

cast(value AS TYPE)可进行数据类型转换，但是浮点数转换为整数的推荐方式是使用round()和floor()，cast转换还可以嵌套(p113)。

抽样查询没有弄明白(p113)。

union all可对两个或多个临时表进行合并，union all的左右两个临时表都需要是子查询，且字段、字段类型一致，且union之后的结果需要一个别名。

第13章函数

hive行转列与列转行，http://blog.csdn.net/jthink_/article/details/38853573

hive UDF、UDAF、UDTF，http://blog.csdn.net/longzilong216/article/details/23921235

0 0