spark-shell基本的RDD操作
来源:互联网 发布:c 字符串数组拷贝 编辑:程序博客网 时间:2024/05/19 04:54
spark RDD的常用操作
RDD的操作分为两种,一种是转化操作,一种是执行操作,转化操作并不会立即执行,而是到了执行操作才会被执行
转化操作:
map()
参数是函数,函数应用于RDD每一个元素,返回值是新的RDD flatMap()
参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDD filter()
参数是函数,函数会过滤掉不符合条件的元素,返回值是新的RDD distinct()
没有参数,将RDD里的元素进行去重操作 union()
参数是RDD,生成包含两个RDD所有元素的新RDD intersection()
参数是RDD,求出两个RDD的共同元素 subtract()
参数是RDD,将原RDD里和参数RDD里相同的元素去掉 cartesian()
参数是RDD,求两个RDD的笛卡儿积
行动操作: collect()
返回RDD所有元素 count()
RDD里元素个数 countByValue()
各元素在RDD中出现次数 reduce()
并行整合所有RDD数据,例如求和操作 fold(0)(func)
和reduce功能一样,不过fold带有初始值 aggregate(0)(seqOp,combop)
和reduce功能一样,但是返回的RDD数据类型和原RDD不一样 foreach(func)
对RDD每个元素都是使用特定函数
行动操作每次的调用时不会存储前面的计算结果的,若果想要存储前面的操作结果需要把结果加载需要在需要缓存中间结果的RDD调用cache(),cache()方法是把中间结果缓存到内存中,也可以指定缓存到磁盘中(也可以只用persisit())
- spark-shell基本的RDD操作
- spark RDD 基本操作
- Spark RDD基本操作
- Spark RDD基本操作
- SPARK中对RDD的基本操作
- spark中RDD的基本操作方式
- Spark RDD API 基本操作
- Spark Pair RDD 基本操作
- spark RDD的基本命令
- [1.3]Spark core编程(二)之RDD执行流程图与RDD的基本操作
- Spark 基础及RDD基本操作
- Spark笔记:RDD基本操作(一)
- Spark笔记:RDD基本操作(上)
- Spark笔记:RDD基本操作(下)
- Spark 基础及RDD基本操作
- Spark笔记:RDD基本操作(上)
- Spark学习——RDD基本操作
- Spark 基础及RDD基本操作
- ffmpeg 内存读写相关
- github 在ubuntu 使用
- VI常用操作
- 黑幕背后的__block修饰符
- C语言调用System命令并获取命令的返回值
- spark-shell基本的RDD操作
- 消息中间件(一)分布式系统事务一致性解决方案大对比,谁最好使?
- linux-grep--匹配前后几行
- iOS常用小功能(电话,短信,邮件)
- 数据库与架构
- 记录Python各种各样的BUG
- extjs 简单的ajax请求实例和后台返回格式
- Java并发编程规则:无状态对象永远是线程安全的
- 股票经济人通信网络 poj 1125 多源最短路