Spark算子:RDD创建操作
来源:互联网 发布:json格式 编辑:程序博客网 时间:2024/05/21 10:38
关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD
从集合创建RDD
- parallelize
def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]
从一个Seq集合创建RDD。
参数1:Seq集合,必须。
参数2:分区数,默认为该Application分配到的资源的CPU核数
- makeRDD
def makeRDD[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T]
这种用法和parallelize完全相同
def makeRDD[T](seq: Seq[(T, Seq[String])])(implicit arg0: ClassTag[T]): RDD[T]
该用法可以指定每一个分区的preferredLocations。
指定分区的优先位置,对后续的调度优化有帮助。
从外部存储创建RDD
- textFile
//从hdfs文件创建.
注意这里的本地文件路径需要在Driver和Executor端存在。
- 从其他HDFS文件格式创建
hadoopFile
sequenceFile
objectFile
newAPIHadoopFile
- 从Hadoop接口API创建
hadoopRDD
newAPIHadoopRDD
比如:从HBase创建RDD
转载请注明:lxw的大数据田地 » Spark算子:RDD创建操作
0 0
- Spark算子:RDD创建操作
- Spark算子:RDD创建操作
- Spark RDD创建操作
- spark RDD操作算子详解(汇总)
- spark rdd 算子
- spark中的RDD算子
- Spark RDD算子介绍
- Spark RDD算子介绍
- Spark RDD算子介绍
- Spark RDD算子介绍
- Spark RDD排序算子
- Spark RDD 常用算子
- Spark RDD算子【四】
- 【Spark】RDD操作详解2——值型Transformation算子
- 【Spark】RDD操作详解4——Action算子
- 【Spark】RDD操作详解4——Action算子
- Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
- Spark算子:RDD基本转换操作(5)–mapPartitions、
- Spark算子:RDD基本转换操作(3)–randomSplit、glom
- js根据日期获取本周的开始日期和结束日期
- 驾照考完之后
- Spark算子:RDD基本转换操作(2)–coalesce、repartition
- poj 3614
- Spark算子:RDD创建操作
- 随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )
- CUDA学习笔记之 CUDA存储器模型
- MongoDB数据迁移方案
- 上传AppStore时,适配iOS10
- An internal error occurred during: "J2EE Component Mapping Update".
- 【原创】【OpenJudge】8782:乘积最大
- binutils编译
- Spark算子:RDD基本转换操作(1)–map、flagMap、distinct