Spark RDD基础

来源:互联网 发布:mac os x install dvd 编辑:程序博客网 时间:2024/05/29 11:11
  • 什么是RDD?
    - RDD(弹性分布式数据集),就是分布式元素的集合(也可以看成是对每一个操作的记录,这是由于Spark采用的惰性计算规则导致的)
    - 每个RDD 都会有多个分区,这些分区运行在不同的节点上
    - 对RDD的操作无外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。
    - 默认情况下,Spark 的RDD 会在你每次对它们进行行动操作时重新计算。如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist() 让Spark 把这个RDD 缓存下来
  • Spark程序的工作流程
    • 从外部数据创建出输入RDD。
    • 使用诸如filter() 这样的转化操作对RDD 进行转化,以定义新的RDD。
    • 告诉Spark 对需要被重用的中间结果RDD 执行persist() 操作。
    • 使用行动操作(例如count() 和first() 等)来触发一次并行计算,Spark 会对计算进行优化后再执行。
  • 针对RDD常用的函数,参见:http://blog.csdn.net/liangdong2014/article/details/70745198
0 0
原创粉丝点击