RDDAPI详解rdd数据模型及rdd的sql实现

来源:互联网 发布:html5翻牌小游戏源码 编辑:程序博客网 时间:2024/05/22 00:39

RDD API详解(部分)

https://www.zybuluo.com/jewes/note/35032

rdd数据模型

http://edu.51cto.com/index.php?do=lesson&id=52325
这里写图片描述
5个元素
1. rdd返回的partition对象集合
2. 数据本地性 driver master 数据本地性
3. 返回依赖关系,只需要关注parents ,简化了模型计算
4. 迭代器,不同框架和计算时读取父rdd都是一样的,基于同一种类型的循环非常高效
5. partitioner

  1. rdd不变性存储,也可以带来细粒度的控制,我们可以对数据版本记录
  2. rdd怎么控制数据分区,通过key值进行分区,
  3. spark利用了内存存储的低延迟性
  4. rdd精髓在机器学习和图计算
  5. 数据的列式存储,shark sparkSQL,通过rdd可以存储复杂格式,
  6. 通过lineage进行容错,但是这些要求数据的不变性
  7. mapPartition 分区链接,连接池
  8. spark高效运行sql,
  9. DAG局部执行
  10. 有损压缩,
0 0
原创粉丝点击