spark--使用parallelize方法创建RDD
来源:互联网 发布:雪利酒 知乎 编辑:程序博客网 时间:2024/06/06 03:46
来源:http://blog.csdn.net/nanruoanhao/article/details/49738521
通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集。
- data = [1, 2, 3, 4, 5]
- distData = sc.parallelize(data)
一旦分布式数据集(distData)被创建好,它们将可以被并行操作。例如,我们可以调用distData.reduce(lambda a, b: a + b)来将数组的元素相加。我们会在后续的分布式数据集运算中进一步描述。
并行集合的一个重要参数是slices,表示数据集切分的份数。Spark将会在集群上为每一份数据起一个任务。典型地,你可以在集群的每个CPU上分布2-4个slices. 一般来说,Spark会尝试根据集群的状况,来自动设定slices的数目。然而,你也可以通过传递给parallelize的第二个参数来进行手动设置。(例如:sc.parallelize(data, 10)).
0 0
- spark使用parallelize方法创建RDD
- spark--使用parallelize方法创建RDD
- spark RDD算子(一) parallelize,makeRDD,textFile
- Spark RDD使用详解2--RDD创建方式
- Spark创建RDD
- Spark RDD创建操作
- Spark RDD 创建
- spark创建RDD方式
- Spark RDD使用原则
- Spark RDD 的创建 & Accumulators
- Spark算子:RDD创建操作
- Spark算子:RDD创建操作
- Spark RDD使用详解1--RDD原理
- Spark RDD使用详解1--RDD原理
- spark源码--RDD-pipe方法
- 使用Alluxio优化Spark RDD
- spark rdd scala相关使用
- spark源码剖析--RDD创建和本质
- Windows下路径的获取(未完结)
- 论版本号的正确打开方式
- 关于Java 项目的思考总结
- java+内存分配及变量存储位置的区别
- Android--View的工作流程
- spark--使用parallelize方法创建RDD
- 站在VR世界的大门前
- JSTL之数字、日期格式化
- Python--弹性分布式数据集(RDD)
- 1009. 说反话 (20)
- MFC学习之路
- 第五周:[Leetcode]121. Best Time to Buy and Sell Stock
- 解决ORA-21561: OID generation failed
- 将Hive启动为服务