3.RDD的创建

来源:互联网 发布:苹果6怎么清除应用数据 编辑:程序博客网 时间:2024/06/08 18:53
第一:RDD实战
第二:RDD的transformation和Action
-------------------------------------------
RDD.scala(reduce(),map())
sparkContext.scala(runJob())


RDD的操作类型3种:transformation(获得算子),action(执行操作),controller(控制算子)


lazy级别,编译器可以有时间优化
collect():收集结果到driver,变成数组,数组中存放的是Tuple会触发一个runJob
foreach():循环遍历每个元素,取出来当做新函数的参数
reduceByKey(_+_,1):第二个参数代表并行度,设置为1后,产生的结果为一个文件
shuffle和并行度没有任何关系
设置多少并行度就有多少partition,task代表了partition
partition数量的改变,是会影响了网络的开销

0 0
原创粉丝点击