SparkContext的parallelize的参数

来源:互联网 发布:smb权限 nas windows 编辑:程序博客网 时间:2024/05/22 06:19

1.解释

- 并行集合的创建(RDD)
使用已经存在的迭代器或者集合通过调用spark驱动程序提供的parallelize函数来创建并行集合
- 并行集合被创建用来在分布式集群上并行计算的。

2.例子
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
一旦创建RDD,RDD,就可以在集群上并行的去被操作。我们可以调用distData.reduce(lambda a, b:a + b)添加元素到list。之后在RDD上进行一些操作或者行动.

3.parallelize的一个重要的参数
就是分区数量。就是将RDD切分多少个分区。这个分区数目每个CPU一般是2-4个在你的集群上。通常,spark会自动设置这个数量在你的集群上。你也可以手动去传参,这个函数的第二个参数,比如`sc.parallelize(data, 5)。

4.persist()
缓存rdd第一次计算之后的结果到内存中,方便以后使用
阅读全文
0 0
原创粉丝点击