走进Spark生态圈:RDD及其相关操作
来源:互联网 发布:ezbuy和淘宝什么关系 编辑:程序博客网 时间:2024/05/30 13:42
概念
RDD(Resilient Distributed Datasets): 分布式弹性数据集,是Spark中最基本的数据抽象,不可变(只读),可分区,可以运行在分布式集群上,Spark中的所有的操作都是以RRD进行的,主要分为两种类型的操作:转化操作和执行操作
分区(Partitions): RDD实际存储的是数据集合的一组分区,由于有分区的存在才可以让数据集运行在分布式集群上,一个分区只能运行在一个Worker上面,但是一个Worker却可以运行在多个分区上面
转化操作(Transformations): 将RDD转化为另一种形式的RDD,只是将转化操作记录在数据集上,并不立即执行的懒加载操作,当触发执行操作的时候才执行
执行操作(Actions):计算RDD经过一系列操作后的结果
以走进Spark生态圈:运行程序在Spark集群中WordCount为例展示应用在RDD上的操作类型
val result = sc.textFile("application/files/greeting.txt") /*创建RDD*/ .flatMap(_.split(" ")) /*转化RDD*/ .map((_,1))/*转化RDD*/ .reduceByKey(_+_)/*执行RDD*/ .saveAsTextFile ( "applications/files/out/wordcount")/*执行操作*/
当执行转化操作的时候并没有立即看到结果,为了立即看到结果需要执行执行操作,上节中我们使用collect方法查看结果
RDD常用操作
(以下操作均已sc代替SparkContext对象)
创建RDD
从外部数据集加载RDD :
sc.textFile()
sc.sequenceFile()
sc.objectFile
等从Scala数据集中加载RDD:
sc.parallelize()
转化RDD操作(Transformations)
执行RDD操作(Actions)
更多RDD操作
请参考:
http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
- 走进Spark生态圈:RDD及其相关操作
- Spark 及其生态圈
- spark及其生态圈简介
- Spark及其生态圈简介
- Spark-基础-Spark及其生态圈简介
- Spark-Spark及其生态圈简介
- 走进Spark生态圈:运行程序在Spark集群
- 走进Spark生态圈:使用Maven构建Spark开发环境
- 实战1.Spark及其生态圈简介
- 走进Spark生态圈:环境的安装与配置
- Spark入门实战系列--1.Spark及其生态圈简介
- Spark入门实战系列--1.Spark及其生态圈简介
- Spark入门实战系列--1.Spark及其生态圈简介
- Spark入门实战系列--1.Spark及其生态圈简介
- Spark入门实战系列--1.Spark及其生态圈简介
- Spark简介及其生态圈及Spark-core运行机理
- Spark:RDD及其简单操作
- spark的生态圈
- CorelDRAW X6 软件+注册机
- C和指针之字符串总结
- 利用java中的双层循环求素数
- 简单搜索练习(一)二分入门 HDU 2141 Can you find it?POJ 2785 4 Value whose Sum is 0
- 出现ssh connect to host localhost port 22 Connection refused问题的解决方法
- 走进Spark生态圈:RDD及其相关操作
- MFC 让程序停一下 但不卡住的办法
- linux语系
- Java中BigDecimal的8种舍入模式
- Wannafly挑战赛4 A C
- 听闻electron 打包可以让我费很长时间
- OpenVPN 网桥模式
- 【Linux】Ubuntu 14.04下搭建 C/C++开发环境
- JUC-LinkedBlockingQueue学习