hive技术总结
来源:互联网 发布:香港最新直播软件 编辑:程序博客网 时间:2024/06/06 17:35
1.hive基本架构
metadata 存储元信息
hadoop 集群
可与其他框架关联元数据
2.hive 数据类型
3.hive 定义
分桶 bucket
例如:
Create table t (user_id int,url string)partitioned by (dt string)
clustered by (user_id) INTO 96 buckets;
set hive.enforce.bucketing = true;
数据倾斜 skewed keys() on()
4.map-side
适合大表和小表关联,小表放到内存中,默认为reduce-side
使用方式:
select /*+MAPJOIN(b)*/ a.keyfrom a join b on a.key=b.key
5.order by 和 sort by
sort by为内部有序,全局无序,效率较高,一般与distribute by 连用
select s.ymd,s.symbol,s.price_close
from stocks s
distribute by s.symbol
sort by s.symbol,s.ymd;
可实现同一symbol下有序
select s.ymd,s.symbol,s.price_close
from stocks s
cluster by s.symbol;
6.Transform
类似hadoop streaming,允许任意语言编写mr嵌入到hql中,在java进程中额外启动一个线程运行脚本/二进制程序,并通过标准输入输出进行数据传递7.自定义udf,udaf,udtf
1 0
- hive技术总结
- 技术-Hive
- [hadoop hive] hive总结
- Hive总结
- Hive总结
- Hive总结
- hive总结
- hive总结
- Hive总结
- HIVE总结
- hive常用技术博客
- hive技术简介
- Hive技术原理解析
- hive数据压缩技术001
- Hive技术原理解析
- hive优化总结
- hive优化总结
- Hive 数据倾斜总结
- 问题:运行项目时会启动另一个模拟器
- 话题11 相除与求余在JAVA中的具体表现
- Python常见错误汇总
- html5的地图及画布
- dubbo-admin-2.5.4在tomcat中部署失败的问题
- hive技术总结
- Qt: 给Widget设置背景图片
- { Cracking The Coding Interview: 150 programming Q&A } 5th edition Part II
- 原码, 反码, 补码 详解
- STM32学习第一天---安装好了CooCox debuger了解了点GPIO
- 我阅读过的C/C++开源项目---有的经过有的路过有的啃过有的改过
- QWidget的背景颜色和背景图片的设置
- nodejs
- 腾讯 体育 VIP 账号共享 仅限一个月