大数据IMF传奇行动绝密课程第65课:Spark SQL下Parquet深入进阶
来源:互联网 发布:网络市场调研的程序 编辑:程序博客网 时间:2024/05/01 01:53
Spark SQL下Parquet深入进阶
1、Spark SQL下的Parquet序列化
2、Spark SQL下的Parquet源码解读
3、Spark SQL下Parquet总结
Parquet中Block、File、ColumnChunk
将数据按列存储时,每一列的数据会被分成多个列块。
存储时有一个逻辑级别的概念RowGroup(行组)。每一列的列块组合起来就是RowGroup。RowGroup以Page方式存储。每一个列块会被分成很多Page。Page是压缩和编码的最小单位。
每一个Parquet最少包含一个RowGroup,而一个RowGroup一般会包含多个ColumnChunk(列块),每个列仅对应一个列块,一个列块包含一个或多个Page。结果上,一个Block等同于一个RowGroup。
Parquet包含的元数据:File、RowGroup、ColumnChunk的元数据。
0 0
- 大数据IMF传奇行动绝密课程第65课:Spark SQL下Parquet深入进阶
- 大数据IMF传奇行动绝密课程第63课:Spark SQL下Parquet内幕深度解密
- 大数据IMF传奇行动绝密课程第66课:Spark SQL下Parquet中PushDown的实现
- 大数据IMF传奇行动绝密课程第64课:Spark SQL下Parquet的数据切分和压缩内幕详解
- 大数据IMF传奇行动绝密课程第62课:Spark SQL下的Parquet使用最佳实践和代码实战
- 大数据IMF传奇行动绝密课程第67课:spark SQL案例综合实战
- 大数据IMF传奇行动绝密课程第68课:Spark SQL通过JDBC操作MySQL
- 大数据IMF传奇行动绝密课程第69课:Spark SQL通过Hive数据源实战
- 大数据IMF传奇行动绝密课程第73课:Spark SQL Thrift Server实战
- 大数据IMF传奇行动绝密课程第100-101课:使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例
- 大数据IMF传奇行动绝密课程第74课:Hive on Spark大揭秘
- 大数据IMF传奇行动绝密课程第48课:Spark性能优化第四季
- 大数据IMF传奇行动绝密课程第61课:Spark SQL数据加载和保存内幕深度解密实战
- 大数据IMF传奇行动绝密课程第39课:BlockManager解密进阶
- 大数据IMF传奇行动绝密课程第56课:揭秘Spark SQL和DataFrame的本质
- 大数据IMF传奇行动绝密课程第57课:Spark SQL on Hive配置及实战
- 大数据IMF传奇行动绝密课程第70课:Spark SQL内置函数解密与实战
- 大数据IMF传奇行动绝密课程第71课:Spark SQL窗口函数解密与实战
- NG2&4折腾记 --- 记NG2升级NG4 RC1之修正问题跑起来
- 递归计算a+aa+aaa.....+(n个a)
- Https单向认证和双向认证
- python运算符
- Swift专用流行三方库
- 大数据IMF传奇行动绝密课程第65课:Spark SQL下Parquet深入进阶
- 创建软链接及解决项目内的软链访问报404的问题
- Unity预计算实时GI (二)实时分辨率
- ANDROID 系统网络连接和管理机制与架构
- 【IOS】cocoapods的使用---以AFNetworking为例
- ConcurrentHashMap(2)
- RabbitMq学习笔记(二)—— 工作队列(WorkQueue)
- SpringMVC自定义配置Log4j及其工作原理
- java元注解