Spark中parallelize函数和makeRDD函数的区别
来源:互联网 发布:ubuntu桌面菜单不见了 编辑:程序博客网 时间:2024/05/22 00:36
我们知道,在Spark中创建RDD的创建方式大概可以分为三种:(1)、从集合中创建RDD;(2)、从外部存储创建RDD;(3)、从其他RDD创建。
而从集合中创建RDD,Spark主要提供了两中函数:parallelize和makeRDD。我们可以先看看这两个函数的声明:
我们可以从上面看出makeRDD有两种实现,而且第一个makeRDD函数接收的参数和parallelize完全一致。其实第一种makeRDD函数实现是依赖了parallelize函数的实现,来看看Spark中是怎么实现这个makeRDD函数的:
我们可以看出,这个makeRDD函数完全和parallelize函数一致。但是我们得看看第二种makeRDD函数函数实现了,它接收的参数类型是Seq[(T, Seq[String])],Spark文档的说明是
Distribute a local Scala collection to form an RDD, with one or more location preferences (hostnames of Spark nodes) for each object. Create a new partition for each collection item.
原来,这个函数还为数据提供了位置信息,来看看我们怎么使用:
我们可以看到,makeRDD函数有两种实现,第一种实现其实完全和parallelize一致;而第二种实现可以为数据提供位置信息,而除此之外的实现和parallelize函数也是一致的,如下:
都是返回ParallelCollectionRDD,而且这个makeRDD的实现不可以自己指定分区的数量,而是固定为seq参数的size大小。
本文链接: 【Spark中parallelize函数和makeRDD函数的区别】(https://www.iteblog.com/archives/1512)
- Spark中parallelize函数和makeRDD函数的区别
- Spark中parallelize函数和makeRDD函数的区别
- Spark中parallelize函数和makeRDD函数的区别
- Spark算子[05]:parallelize,makeRDD,textFile
- spark RDD算子(一) parallelize,makeRDD,textFile
- 请教Spark 中 combinebyKey 和 reduceByKey的传入函数参数的区别?
- fold函数和reduce函数的区别(不特指spark)
- OC中函数和方法的区别
- iOS 中函数和方法的区别
- OC中函数和方法的区别
- C++中宏和函数的区别
- Scala中方法和函数的区别
- Matlab中函数和脚本的区别
- scala 中方法和函数的区别
- OC中方法和函数的区别
- Scala中方法和函数的区别
- SQL Server中DataLength函数和Len函数的区别
- C#中虚函数和抽象函数的区别
- State Threads 回调终结者(ST线程库)
- python 去除字符串某个字符
- SQL语言基础及数据定义功能
- 如果你还是“程序员”,我劝你别创业!
- Nginx的Permission denied错误
- Spark中parallelize函数和makeRDD函数的区别
- editText限制输入的5种方法
- 使用RAP搭建前端Mock Server
- Jmeter组件开发概述
- angularJS添加事件监听
- 修改每个nodemanager 可分配的内存 yarn.nodemanager.resource.memory-mb
- 【序列】分片
- 注解方式实现aop权限管理
- C# LitJson Json序列化简单使用