第65课:SparkSQL下Parquet深入进阶学习笔记
来源:互联网 发布:单页面网站源码 编辑:程序博客网 时间:2024/05/22 06:15
第65课:SparkSQL下Parquet深入进阶
本期内容:
1 SparkSQL下的Parquet序列化
2 SparkSQL下的Parquet源码解读
3 SparkSQL下Parquet总结
Parquet中关键概念:
1 Block
2 File
3 Column Chunk
数据按列存储时,每一列的数据被分割成多个列块。存储逻辑视图:RowGroup。每一列的列簇组合起来就叫RowGroup。RowGroup是Page方式存储的
Page的概念:从逻辑抽象上来看,每一个列块被分割成Page,Page是压缩和编码的最小单位。一个Parquet文件中最少包含一个RowGroup。每个RowGroup一般情况下会包含多个列块,即column chunk。每个列仅仅对应一个列块,每个列块包含一个或多个Page。从结果上讲,可以认为一个数据块就是一个Block等同于一个RowGroup。这和HDFS的数据块完全不同。
Parquet包含元数据,元数据有几种类型:
1 文件的元数据
2 RowGroup的元数据
3 列块的元数据
Parquet的序列化和反序列化占用读写Parquet文件时间的60--80%。
从使用接口的角度来看Spark SQL Parquet图:
以上内容是王家林老师DT大数据梦工厂《 IMF传奇行动》第65课的学习笔记。
王家林老师是Spark、Flink、Docker、Android技术中国区布道师。Spark亚太研究院院长和首席专家,DT大数据梦工厂创始人,Android软硬整合源码级专家,英语发音魔术师,健身狂热爱好者。
微信公众账号:DT_Spark
联系邮箱18610086859@126.com
电话:18610086859
QQ:1740415547
微信号:18610086859
新浪微博:ilovepains
- 第65课:SparkSQL下Parquet深入进阶学习笔记
- 第62课:SparkSQL下的Parquet使用最佳实践和代码实践学习笔记
- 第64课:SparkSQL下Parquet的数据切分和压缩内幕详解学习笔记
- 第66课:SparkSQL下Parquet中PushDown的实现学习笔记
- 大数据IMF传奇行动绝密课程第65课:Spark SQL下Parquet深入进阶
- 第67课:SparkSQL下案例综合实战学习笔记
- day65-Spark SQL下Parquet深入进阶
- 第63课:Spark SQL下Parquet内幕深度解密学习笔记
- SparkSQL下Parquet中PushDown的实现
- 第57课:SparkSQL案例实战学习笔记
- 第68课:SparkSQL JDBC实战详解学习笔记
- 第69课:SparkSQL通过Hive数据源实战学习笔记
- Hadoop学习笔记 --- 深入理解 parquet 列式存储格式
- 第56课:揭秘SparkSQL和DataFrame的本质学习笔记
- 第61课:SparkSQl数据加载和保存内幕深度解密实战学习笔记
- 第70课:SparkSQL内置函数解密与实战学习笔记
- SparkSQL-DataFrame学习笔记
- sparkSQL学习笔记1
- Swift入门
- OC基础的总结1
- 反转一个字符串的算法
- C++——调用系统时间
- MapReduce读/写RCFile文件
- 第65课:SparkSQL下Parquet深入进阶学习笔记
- Android设计模式应用-代理模式
- Bound Services绑定服务
- [noi2005][treap]序列维护
- Python序列概述
- GCD使用
- NYOJ 737石子合并(一)
- Http头:only-if-cached
- Cocoapods的安装和使用