Spark开源学习模块
来源:互联网 发布:手机淘宝怎样收藏店铺 编辑:程序博客网 时间:2024/06/05 20:46
Spark开源的各模块组成结构:
1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
2. Stage——分为多个阶段进行作业。
3. Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition依赖。
4. RDD——Resillient Distributed Dataset 分布式数据集。
5. Operation——作用于RDD的各种操作分为transformation和action。
6. Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。
8. DAG——Directed Acycle graph,有向无环图,RDD之间的依赖关系。
9. Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度。
参考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing
0 0
- Spark开源学习模块
- Yate开源软件Jabberclient模块接收Spark即时消息示例
- spark sql模块
- spark内存管理模块
- FaceBook机器学习开源DL模块
- spark学习 spark配置文件
- spark 学习
- spark 学习
- Spark学习
- Spark学习
- Spark学习
- spark学习
- Spark学习
- spark学习
- spark学习
- spark学习
- SPARK学习
- Spark学习
- Scribefire发CSDN博客
- 大型网站技术架构的学习笔记(一)
- URAL 1989 Subpalindromes(多项式哈希+线段树)
- angularJs项目实战!01:模块划分和目录组织
- javascript学习笔记(三)
- Spark开源学习模块
- scott模式下的对象丢失或损坏后的处理方法
- 数据结构与算法面试题
- WIFI模块使用心得
- JAVA面试题解惑系列(十)——话说多线程
- Codeforces Round #103 (Div. 2) D. Missile Silos(spfa + 枚举边)
- java生成指定范围的随机数
- 你已经够矮了,那就爬到一个高处!(转)
- Java集合中那些类是线程安全的