spark中RDD的基本操作方式
来源:互联网 发布:阿里云 推荐码 7折 编辑:程序博客网 时间:2024/05/20 21:24
spark中RDD的基本操作方式
- 读取本地文件
val rdd = sc.textFile("file:///home/tom/a.txt")rdd.collect val rdd1=rdd.map(s=>Integer.parseInt(s)+1)rdd1.collectrdd1.saveAsTextFile("file:///home/tom/result")
Spark是支持使用任何Hadoop支持的存储系统上的文件创建RDD的,比如说HDFS、Cassandra、HBase以及本地文件。通过调用SparkContext的textFile()方法,可以针对本地文件或HDFS文件创建RDD。
有几个事项是需要注意的:
1、如果是针对本地文件的话,如果是在windows上本地测试,windows上有一份文件即可;如果是在spark集群上针对linux本地文件,那么需要将文件拷贝到所有worker节点上。
2、Spark的textFile()方法支持针对目录、压缩文件以及通配符进行RDD创建。
3、Spark默认会为hdfs文件的每一个block创建一个partition,但是也可以通过textFile()的第二个参数手动设置分区数量,只能比block数量多,不能比block数量少。
- 读取HDFS文件
val rdd = sc.textFile("/input/a.txt") //hdfs路径rdd.collect
Spark的textFile()除了可以针对上述几种普通的文件创建RDD之外,还有一些特列的方法来创建RDD:
1、SparkContext.wholeTextFiles()方法,可以针对一个目录中的大量小文件,返回filename, fileContent组成的pair,作为一个PairRDD,而不是普通的RDD。普通的textFile()返回的RDD中,每个元素就是文件中的一行文本。
2、SparkContext.sequenceFileK, V方法,可以针对SequenceFile创建RDD,K和V泛型类型就是SequenceFile的key和value的类型。K和V要求必须是Hadoop的序列化类型,比如IntWritable、Text等。
3、SparkContext.hadoopRDD()方法,对于Hadoop的自定义输入类型,可以创建RDD。该方法接收JobConf、InputFormatClass、Key和Value的Class。
4、SparkContext.objectFile()方法,可以针对之前调用RDD.saveAsObjectFile()创建的对象序列化的文件,反序列化文件中的数据,并创建一个RDD。
- 基于集合创建rdd
val arr=Array(1,2,3,4,5,6)val rdd=sc.parallelize(arr)rdd.collectval arr = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)val rdd = sc.parallelize(arr)val sum = rdd.reduce(_ + _)
调用parallelize()时,有一个重要的参数可以指定,就是要将集合切分成多少个partition。Spark会为每一个partition运行一个task来进行处理。Spark官方的建议是,为集群中的每个CPU创建2~4个partition。Spark默认会根据集群的情况来设置partition的数量。但是也可以在调用parallelize()方法时,传入第二个参数,来设置RDD的partition数量。比如parallelize(arr, 10)
- rdd的常用函数
val rdd = sc.textFile("/input/a.txt")
rdd.collect //返回所有数据rdd.countrdd.first //注:没有last方法rdd.take(3) //取出rdd中的前三个元素rdd.top(3) //按照从大到小的顺序,取出最大的三个元素
- foreach
rdd.foreach(s=>println(s)) //结果会夹杂在日志信息中rdd.foreach(println) //注意,或许会和上面的输出顺序不一致
- map和flatMap区别
val rdd0=sc.parallelize(List(1,2,3,4))rdd0.collectrdd0.reduce((x,y)=>x+y)
val rdd1=rdd0.map(x=>x+1)rdd1.collectval rdd2=rdd0.map(x=>x.to(3))rdd2.collect //结果为4个集合val rdd3=rdd0.flatMap(x=>x.to(3))rdd3.collect //结果合并为1个集合
- spark中RDD的基本操作方式
- SPARK中对RDD的基本操作
- spark RDD 基本操作
- Spark RDD基本操作
- Spark RDD基本操作
- spark-shell基本的RDD操作
- Spark中RDD操作
- spark中创建RDD的方式
- Spark RDD API 基本操作
- Spark Pair RDD 基本操作
- spark中对rdd的几个操作
- spark RDD的基本命令
- spark中RDD的转化操作和行动操作
- [1.3]Spark core编程(二)之RDD执行流程图与RDD的基本操作
- Java接入Spark之创建RDD的两种方式和操作RDD
- Java接入Spark之创建RDD的两种方式和操作RDD
- Spark 基础及RDD基本操作
- Spark笔记:RDD基本操作(一)
- 【二维树状数组】poj 2155 Matrix
- MongoDB实战-操作分片集群,向分片集群中写入数据
- MySQL无法跳过登陆
- jstl标签库的引入
- 如何获取US?
- spark中RDD的基本操作方式
- Python标准库简单用法
- iOS Weex跨平台开发工具功能~简介
- 记录2017/9/6笔试题
- MSC Simufact.Forming 14.0.1 Update Only Win64 1DVD
- [C专家]分析C语言声明——关于枚举
- 并发基础_9_并发_锁_读写锁_未详解
- 为Spring Cloud Ribbon/Zuul配置请求重试
- Hybrid优化之两个WebView中的H5通信