Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
来源:互联网 发布:可以编程的手机软件 编辑:程序博客网 时间:2024/05/17 22:57
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct
- map
将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。
输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。
- flatMap
属于Transformation算子,第一步和map一样,最后将所有的输出分区合并成一个。
使用flatMap时候需要注意:
flatMap会将字符串看成是一个字符数组。
看下面的例子:
再看:
这次的结果好像是预期的,最终结果里面并没有把字符串当成字符数组。
这是因为这次map函数中返回的类型为Array[String],并不是String。
flatMap只会将String扁平化成字符数组,并不会把Array[String]也扁平化成字符数组。
参考:
http://alvinalexander.com/scala/collection-scala-flatmap-examples-map-flatten
- distinct
对RDD中的元素进行去重操作。
转载请注明:lxw的大数据田地 » Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
0 0
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- 【spark】Spark算子:RDD基本转换操作–map、flagMap、distinct
- RDD基本转换操作(1)–map、flagMap、distinct
- 3.2 Spark RDD 基本转换操作1-map、flatMap、distinct
- Spark算子:RDD基本转换操作(5)–mapPartitions、
- Spark算子:RDD基本转换操作(2)–coalesce、repartition
- Spark算子:RDD基本转换操作(6)–zip、zipPartitions
- Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
- Spark算子:RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId
- Spark算子:RDD基本转换操作(6)–zip、zipPartitions
- Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex
- Spark算子:RDD基本转换操作(3)–randomSplit、glom
- Spark算子:RDD基本转换操作(2)–coalesce、repartition
- Spark算子:RDD基本转换操作(5)–mapPartitions/mapPartitionsWithIndex
- MongoDB数据迁移方案
- 上传AppStore时,适配iOS10
- An internal error occurred during: "J2EE Component Mapping Update".
- 【原创】【OpenJudge】8782:乘积最大
- binutils编译
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
- poj 2109 Power of Cryptography
- [转]Python使用struct处理二进制(pack和unpack用法)
- 谷歌地图
- 局域网打印机共享无法改变最大连接数量的时候可以使用下边的bat来不断刷新电脑连接-核心指令net session
- 大端和小端
- ReactNative小鹏学习1 环境搭建
- Android Socket 封装,支持 TCP/UDP 客户端和服务端,支持自定义粘包处理、验证处理、解析处理。
- logback logback.xml常用配置详解(三) <filter>