SparkContext的parallelize的参数
来源:互联网 发布:smb权限 nas windows 编辑:程序博客网 时间:2024/05/22 06:19
1.解释
- 并行集合的创建(RDD)使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合
- 并行集合被创建用来在分布式集群上并行计算的。
2.例子
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
一旦创建RDD,RDD,就可以在集群上并行的去被操作。我们可以调用distData.reduce(lambda a, b:a + b)添加元素到list。之后在RDD上进行一些操作或者行动.
3.parallelize的一个重要的参数
就是分区数量。就是将RDD切分多少个分区。这个分区数目每个CPU一般是2-4个在你的集群上。通常,spark会自动设置这个数量在你的集群上。你也可以手动去传参,这个函数的第二个参数,比如`sc.parallelize(data, 5)。
4.persist()
缓存rdd第一次计算之后的结果到内存中,方便以后使用
阅读全文
0 0
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数
- SparkContext的parallelize的参数
- SparkContext的parallelize
- SparkContext的parallelize的参数作用以及MapValues
- SparkContext的初始化机制
- parallelize中指定partition个数的详解
- SparkContext初始化的核心过程
- SparkContext源码的简单分析
- Spark中parallelize函数和makeRDD函数的区别
- Spark中parallelize函数和makeRDD函数的区别
- Spark中parallelize函数和makeRDD函数的区别
- SparkContext创建初始化完成的主要工作
- Spark调度系列-----3.SparkContext对象的创建和SparkContext的作用
- 坑爹的问题,Spark On Yarn ERROR spark.SparkContext: Error initializing SparkContext.
- spark中的SparkContext实例的textFile使用的小技巧
- spark中的SparkContext实例的textFile使用的小技巧
- 班农出局对特朗普是福是祸?市场可以松口气吗?
- Android A/B System OTA分析(四)系统的启动和升级
- 启动docker服务时报错而引发的问题SELINUX
- 从fragment跳转到activity,再返回到指定的fragment页面
- 金融安全资讯精选 2017年第四期:全球安全支出走高,外国银行再遭黑客袭击
- SparkContext的parallelize的参数
- tp3使用session
- ImagerLoader缓存到SdCard
- Android性能优化(下)
- Centos安装FastDFS集群文件系统
- Javascript字符串单引号与双引号的区别
- python 文件头的编码声明问题
- HDU 1711 Number Sequence (KMP模板)
- JS当中的拷贝!!!