Spark RDD基础

来源：互联网发布：mac os x install dvd 编辑：程序博客网时间：2024/05/29 11:11

什么是RDD？
- RDD(弹性分布式数据集)，就是分布式元素的集合（也可以看成是对每一个操作的记录，这是由于Spark采用的惰性计算规则导致的）
- 每个RDD 都会有多个分区，这些分区运行在不同的节点上
- 对RDD的操作无外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。
- 默认情况下，Spark 的RDD 会在你每次对它们进行行动操作时重新计算。如果想在多个行动操作中重用同一个RDD，可以使用RDD.persist() 让Spark 把这个RDD 缓存下来
Spark程序的工作流程
- 从外部数据创建出输入RDD。
- 使用诸如filter() 这样的转化操作对RDD 进行转化，以定义新的RDD。
- 告诉Spark 对需要被重用的中间结果RDD 执行persist() 操作。
- 使用行动操作（例如count() 和first() 等）来触发一次并行计算，Spark 会对计算进行优化后再执行。
针对RDD常用的函数，参见：http://blog.csdn.net/liangdong2014/article/details/70745198

0 0