Spark Transformation —— distinct 算子
来源:互联网 发布:java中单选按钮 编辑:程序博客网 时间:2024/06/08 08:57
distinct
对RDD中的元素进行去重操作。
代码测试
测试数据准备
在hdfs上放一个文件1.txt
打开spark-shell
spark-shell --master spark://master:7077(重要的事情说多遍,spark-shell和spark-submit核心的参数是差不多的)
创建RDD
var data = sc.textFile("/qgzang/1.txt")
测试distinct 算子
scala> data.flatMap(line => line.split("\\s+")).collectres61: Array[String] = Array(hello, world, hello, spark, hello, hive, hi, spark)scala> data.flatMap(line => line.split("\\s+")).distinct.collectres62: Array[String] = Array(hive, hello, world, spark, hi)
0 0
- Spark Transformation —— distinct 算子
- Spark Transformation —— map算子
- Spark Transformation —— flatMap算子
- Spark Transformation —— repartition算子
- 【Spark】RDD操作详解2——值型Transformation算子
- 【Spark】RDD操作详解2——值型Transformation算子
- 【Spark Java API】Transformation(5)—cartesian、distinct
- 图解Spark Transformation算子
- 图解Spark Transformation算子
- Spark transformation算子案例
- spark--transform算子--distinct
- spark transformation和action算子
- 【Spark】RDD操作详解3——键值型Transformation算子
- 【Spark】RDD操作详解3——键值型Transformation算子
- 【spark】Spark transformation和action的算子
- [1.4]Spark RDD经典Transformation算子实战
- Spark Transformation和Action算子速查表
- Spark中transformation算子的操作
- Android Studio给项目添加第三方库的方法
- 堆和栈(2)
- iOS-自定义标签及其控件(一)
- mongodb 监听远程连接
- java的深拷贝与浅拷贝
- Spark Transformation —— distinct 算子
- 文件排序Java工具类(未测试)
- 微信开发环境,高级接口可用
- C++,链表类,链表模板类
- Spring整合Hibernate的步骤
- HashMap简单实现原理及遍历map的几种方式
- Test上传图片
- poj 3090 Visible Lattice Points
- iOS文本的替换