Spark算子[06]:union,distinct,cartesian,intersection,subtract
来源:互联网 发布:羊绒 知乎 编辑:程序博客网 时间:2024/06/05 00:06
输入:
#scala
val rdd1 = sc.parallelize(List(“a”,”b”,”b”,”c”))
val rdd2 = sc.parallelize(List(“c”,”d”,”e”))
——————————————-
#java
JavaRDD rdd1 = sc.parallelize(Arrays.asList(“a”,”b”,”b”,”c”));
JavaRDD rdd2 = sc.parallelize(Arrays.asList(“c”,”d”,”e”));
1、union
返回一个新的数据集,该数据集包含源数据集和参数中的元素的联合。不去重
scala版本
scala> val unionRdd = rdd1.union(rdd2)scala> unionRdd.collectres2: Array[String] = Array(a, b, b, c, c, d, e)
java版本
JavaRDD<String> res = rdd1.union(rdd2);res.foreach(x -> System.out.print(x+" "));# a b b c c d e
2、distinct
distinct([numTasks])) 返回包含源数据集去重后元素的新数据集。
scala版本
scala> val distinctRdd = rdd1.distinct(2)scala> distinctRdd.collectres3: Array[String] = Array(b, a, c)
java版本
JavaRDD<String> res = rdd1.distinct(2);res.foreach(x -> System.out.print(x+" "));# b a c
3、cartesian 笛卡尔
cartesian(otherDataset) 当调用类型T和U的数据集时,返回(T,U)对的数据集(所有对元素)。
scala版本
scala> val cartesainRdd = rdd1.cartesian(rdd2)scala> cartesainRdd.collectres5: Array[(String, String)] = Array((a,c), (a,d), (a,e), (b,c), (b,d), (b,e), (b,c), (b,d), (b,e), (c,c), (c,d), (c,e))
java版本
JavaPairRDD<String,String> res = rdd1.cartesian(rdd2);res.foreach(x -> System.out.print(x+" "));#(a,c) (a,d) (a,e) (b,c) (b,d) (b,e) (b,c) (b,d) (b,e) (c,c) (c,d) (c,e)
4、intersection 交集
intersection(otherDataset) 返回一个新的RDD,它包含源数据集中元素和参数的交集。去重
scala版本
scala> val intersectionRdd = rdd1.intersection(rdd2)scala> intersectionRdd.collectres6: Array[String] = Array(c)
java版本
JavaRDD<String> res = rdd1.intersection(rdd2);res.foreach(x -> System.out.print(x+" "));# c
5、subtract 差集
rdd1.subtract (rdd2,2) 返回在rdd1中出现,但是不在rdd2中出现的元素。不去重
scala版本
scala> val subtractRdd = rdd1.subtract(rdd2)scala> subtractRdd.collectres7: Array[String] = Array(b, b, a)
java版本
JavaRDD<String> res = rdd1.subtract(rdd2,2);res.foreach(x -> System.out.print(x+" "));# b b a
阅读全文
0 0
- Spark算子[06]:union,distinct,cartesian,intersection,subtract
- spark RDD算子(三) distinct,union,intersection,subtract,cartesian
- spark简单使用——union intersection subtract cartesian
- Spark算子:RDD基本转换操作(4)–union、intersection、subtract
- Spark算子:RDD基本转换操作(4)–union、intersection、subtract
- SparkRDD学习之map ,flatmap,mappartitions,glom,union,cartesian,groupby,filter,distinct,subtract代码
- Spark编程之基本的RDD算子之glom,substract,substractByKey,intersection,distinct,union
- Spark RDD中Transformation的filter、distinct、cartesian、union详解
- spark--transform算子--cartesian
- 3.2 Spark RDD 基本转换操作4-集合:union、intersection、subtract
- spark--transform算子--intersection
- spark--transform算子--distinct
- spark算子union使用
- spark--transform算子--union
- RDD基本转换操作(4)–union、intersection、subtract
- RDD基本转化操作:filter、union、intersection、subtract、map
- 【Spark Java API】Transformation(5)—cartesian、distinct
- Spark Transformation —— distinct 算子
- 35年编程史沉淀下来的8条宝贵经
- Asp.net Core中SignalR Core预览版的一些新特性前瞻,附源码(消息订阅与发送二进制数据)
- MySQL存储过程书写
- 【POJ2251】Dungeon Master 三维 BFS Hash(12/1000)
- spark(8)-spark RDD API(course16)
- Spark算子[06]:union,distinct,cartesian,intersection,subtract
- spring和hibernate整合
- 函数指针与指针函数
- 【srm603】Sum Of Arrays
- mySQL基本语句总结第一篇
- activeMQ+spring
- 激光雷达—无人驾驶汽车的眼睛
- 利用phantomjs模拟登录网站(帐号登陆)
- 使用JackSon将Object(LinkHashMap)转成POJO