Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
来源:互联网 发布:无印良品淘宝旗舰店 编辑:程序博客网 时间:2024/05/16 15:42
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct
- map
将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。
输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。
- flatMap
属于Transformation算子,第一步和map一样,最后将所有的输出分区合并成一个。
使用flatMap时候需要注意:
flatMap会将字符串看成是一个字符数组。
看下面的例子:
再看:
这次的结果好像是预期的,最终结果里面并没有把字符串当成字符数组。
这是因为这次map函数中返回的类型为Array[String],并不是String。
flatMap只会将String扁平化成字符数组,并不会把Array[String]也扁平化成字符数组。
参考:
http://alvinalexander.com/scala/collection-scala-flatmap-examples-map-flatten
- distinct
对RDD中的元素进行去重操作。
转载请注明:lxw的大数据田地 » Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
阅读全文
0 0
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- 【spark】Spark算子:RDD基本转换操作–map、flagMap、distinct
- RDD基本转换操作(1)–map、flagMap、distinct
- 3.2 Spark RDD 基本转换操作1-map、flatMap、distinct
- Spark算子:RDD基本转换操作(5)–mapPartitions、
- Spark算子:RDD基本转换操作(2)–coalesce、repartition
- Spark算子:RDD基本转换操作(6)–zip、zipPartitions
- Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
- Spark算子:RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId
- Spark算子:RDD基本转换操作(6)–zip、zipPartitions
- Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
- Spark算子:RDD基本转换操作(3)–randomSplit、glom
- Spark算子:RDD基本转换操作(2)–coalesce、repartition
- Spark算子:RDD基本转换操作(5)–mapPartitions/mapPartitionsWithIndex
- 【BZOJ2244】【SDOI2011】拦截导弹
- 【Scikit-Learn 中文文档】特征选择
- ubuntu下的caffe安装
- 学术论文地址总结
- React学习笔记_按需加载
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- 二叉树的遍历方法及递归实现
- 服务端开发之MySql数据库问题记录
- react-native + redux 实践
- Python学习之路002
- 使用LVS实现负载均衡原理及安装配置详解
- Eclipse SVN冲突详细解决方案
- Bezier曲线在Android动画中的应用
- Linux部署Apache