spark--transform算子--distinct
来源:互联网 发布:qpst有端口不显示手机 编辑:程序博客网 时间:2024/06/05 10:12
import org.apache.spark.{SparkConf, SparkContext}/** * Created by liupeng on 2017/6/16. */object T_distinct { System.setProperty("hadoop.home.dir","F:\\hadoop-2.6.5") def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("distinct_test").setMaster("local") val sc = new SparkContext(conf) val list = List(1,2,3,1,4,5,4,7,1) var rdd = sc.parallelize(list) //distinct方法用于对本身的数据集进行去重处理 val result = rdd.distinct() .foreach(println) //如果是键值对的数据,kv都相同,才算是相同的元素 val list1 = List(("liupeng", 120), ("liupeng", 120), ("liusi", 120)) val rdd1 = sc.parallelize(list1) val result1 = rdd1.distinct() .foreach(println) }}
运行结果:
4
1
3
7
5
2
1
3
7
5
2
liusi,120)
(liupeng,120)
(liupeng,120)
阅读全文
0 0
- spark--transform算子--distinct
- spark--transform算子--cartesian
- spark--transform算子--coalesce
- spark--transform算子--cogroup
- spark--transform算子--filter
- spark--transform算子--flatMap
- spark--transform算子--groupByKey
- spark--transform算子--intersection
- spark--transform算子--join
- spark--transform算子--map
- spark--transform算子--mapPartitions
- spark--transform算子--mapPartitionsWithIndex
- spark--transform算子--parallelized
- spark--transform算子--reduceByKey
- spark--transform算子--repartition
- spark--transform算子--sample
- spark--transform算子--sortByKey
- spark--transform算子--union
- Linux下守护进程
- netty 发送 超过 1024 数据
- 将beyond compare设置为svn的代码比较工具
- vivado【3】
- TGP无限验证码怎么办?
- spark--transform算子--distinct
- 453. Minimum Moves to Equal Array Elements
- 解决了ora-00119和ora-00132这个问题,不容易啊
- 解决错误error C2664: “CPropertySheet::AddPage”: 不能将参数 1 从“CAddendPage *__w64 ”转换为“CPropertyPage *”
- Python学习
- Ubuntu16.04.2中安装sql server数据库
- CentOS 7 安装 MySQL
- GB2312、GBK与UTF-8的区别
- 音频视频解决方案:GStreamer-ffmpeg-ffdshow-directshow-vfw