Hive开发经验总结

来源：互联网发布：自制qq头像软件编辑：程序博客网时间：2024/06/04 20:25

1. 了解Hive的基本概念

对Hive基本概念的了解，有助于对移动开发平台的理解与掌握，便于项目开展。尤其是其与普通关系型数据库的区别。
这里写图片描述

2. 数据倾斜（Data skew）

概念：简单理解就是数据分布不均匀。有这么一种说法：正常的数据分布理论上都是倾斜的，就是我们所说的20-80原理：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。
产生场景：group by和 join
解决方法：
a) 调整reduce内存值
b) 指定key值（distribute by、cluster by）
c) 将reduce阶段的join操作调整到map阶段

3. 小技巧

 建立中间表
有些程序的逻辑较为复杂，可通过分析拆解为多个中间表的形式。
建立中间表的好处主要有两点：
a) 降低单个程序的复杂度，提供运行成功率；
b) 数据可溯源，易于后期扩展。

 建立临时表
在一个程序内建立临时表类似于视图的功能，保存中间结果用于计算，提高运行效率。

 数据规范化
项目中使用到的数据来自不同部门，由不同的人生产，容易出现很多格式上不一致的问题。
a) null值处理
null值用于运算的结果始终为null，程序中可使用 nvl(字段名,默认值) 进行处理，以防出错。
b) 空白符处理
数据表中某些字段使用空格补全，如经常出现product_no字段，用户手机号前后存在空格，导致匹配失败。可使用trim()函数处理
c) 注意分隔符
因为hive是“读模式”，一定要注意表的分隔符，如app名称字段“生活|美团”，如果再使用“|”作为表分隔符则会出错。

 极大表与极小表关联问题
将join操作调整到map阶段执行，避免产生笛卡尔积，提升运行效率
select /+mapjoin( tab_small )/ from tab_small join tab_huge on …

阅读全文

0 0