RDDAPI详解rdd数据模型及rdd的sql实现
来源:互联网 发布:html5翻牌小游戏源码 编辑:程序博客网 时间:2024/05/22 00:39
RDD API详解(部分)
https://www.zybuluo.com/jewes/note/35032
rdd数据模型
http://edu.51cto.com/index.php?do=lesson&id=52325
5个元素
1. rdd返回的partition对象集合
2. 数据本地性 driver master 数据本地性
3. 返回依赖关系,只需要关注parents ,简化了模型计算
4. 迭代器,不同框架和计算时读取父rdd都是一样的,基于同一种类型的循环非常高效
5. partitioner
- rdd不变性存储,也可以带来细粒度的控制,我们可以对数据版本记录
- rdd怎么控制数据分区,通过key值进行分区,
- spark利用了内存存储的低延迟性
- rdd精髓在机器学习和图计算
- 数据的列式存储,shark sparkSQL,通过rdd可以存储复杂格式,
- 通过lineage进行容错,但是这些要求数据的不变性
- mapPartition 分区链接,连接池
- spark高效运行sql,
- DAG局部执行
- 有损压缩,
0 0
- RDDAPI详解rdd数据模型及rdd的sql实现
- RDD实现详解
- RDD实现详解
- Spark核心数据模型RDD及操作
- RDD详解
- RDD详解
- RDD实现
- RDD
- RDD
- RDD
- RDD
- rdd
- RDD
- RDD
- RDD
- rdd
- RDD
- spark RDD详解及源码分析
- 自动回复
- vba excel编程三日谈(3)
- PHP中调用python程序
- sqoop
- Java 数组类型(基本类型数组类型、封装类型数组类型、数组的数组类型)
- RDDAPI详解rdd数据模型及rdd的sql实现
- 18. Window createPopup() 方法
- 2015年多校联合训练第三场RGCDQ(hdu5317)
- 二叉树基本操作
- Bundle, 传递数据的包裹
- redis持久化RDB和AOF
- C# Chart 点击获取当前点击坐标和Series
- OC学习:OC中的可变字典NSMutableDictionary和字典的遍历
- 逻辑地址、线性地址、物理地址