Spark基础学习(一)

来源:互联网 发布:大数据发展趋势 ppt 编辑:程序博客网 时间:2024/06/09 06:19

Spark核心概念 – RDD(弹性分布式数据集)

这里写图片描述

1、分布在集群中的只读对象集合(由多个Partition构成)
2、可以存储在磁盘或是内存
3、通过并行“转换”构成
4、失效后自动重构

基本操作
transformations
1、可以通过scala集合和hadoop数据集构成新的RDD
2、通过已有的RDD产生新的RDD
action
3、通过RDD计算得到一个值或是一组值

这里写图片描述

这里写图片描述

这里写图片描述

原创粉丝点击