RDD 宽依赖 , 和窄依赖

来源:互联网 发布:linux服务器增加硬盘 编辑:程序博客网 时间:2024/05/16 05:04

RDD 宽依赖------    一个子Rdd 依赖很多父RDD 也就是说这个 子RDD  是由很多父RDD 来组成的,所以, 他不好做优化,一般是需要做shuffle的操作, 这个shuffle的操作,很浪费时间,希望spark也做了优化把。。嗯嗯, 

 RDD  窄依赖------ 一个子的RDD  只有一个父亲,不是这么说,应该说是一个父亲 RDD 有且只传递给一个子RDD,   对吧,嗯嗯, 这样 比较容易优化,我们举个例子, 假如有四个RDD  ------ A ----B-----C-----D   分别依赖, 这个时候,MR模型的话,可能是这样的   1+1 =2+1=3+1=4   但是我们的 spark 是会做pipline优化的额, 直接1+1+1+1 =4 ,这样明显速度提升了很多

0 0
原创粉丝点击