Spark算子[05]:parallelize,makeRDD,textFile
来源:互联网 发布:淘宝代销上架编辑技巧 编辑:程序博客网 时间:2024/05/27 12:20
parallelize
scala版本:
第一个参数:本地scala Seq集合;
第二个参数:numSlices partition的数量;
返回:RDD[T]
/** Distribute a local Scala collection to form an RDD.*/def parallelize[T: ClassTag](seq: Seq[T],numSlices: Int = defaultParallelism): RDD[T] = withScope {}
scala> sc.parallelize(List(1,2,3))
scala版本:
第一个参数:只能接收List的集合,之后转为scala集合;
第二个参数:numSlices partition的数量;
【Typically you want 2-4 partitions for each CPU in your cluster. 】
【官网建议:每个CPU分2-4个partitions】
返回:JavaRDD[T]
/** Distribute a local Scala collection to form an RDD. */def parallelize[T](list: java.util.List[T], numSlices: Int): JavaRDD[T] = { implicit val ctag: ClassTag[T] = fakeClassTag sc.parallelize(list.asScala, numSlices)}
List<Integer> num = Arrays.asList(1, 2, 4, 5, 7, 8);JavaRDD<Integer> numRdd = sc.parallelize(num);
makeRDD
scala版本的才有makeRDD,底层调用parallelize(seq, numSlices)实现;
def makeRDD[T: ClassTag](seq: Seq[T],numSlices: Int = defaultParallelism): RDD[T] = withScope { parallelize(seq, numSlices)}
textFile
textFile,输入支持在目录、压缩文件和通配符。
例如,您可以使用textFile(“/my/directory”)、textFile(“/my/directory/*. txt”)和textFile(“/my/directory/*. gz”)。
scala版本
scala> val lines = sc.textFile("/spark.txt",4)
java版本
JavaRDD<String> lines = sc.textFile("C:\\test\\spark.txt",2);
支持模式匹配
JavaRDD<String> lines = sc.textFile("C:\\test\\*.txt");
支持文件目录
JavaRDD<String> lines = sc.textFile("C:\\test");
支持多个路径,可以使用逗号分隔
JavaRDD<String> lines = sc.textFile("C:\\test,C:\\test1",3);
阅读全文
0 0
- Spark算子[05]:parallelize,makeRDD,textFile
- spark RDD算子(一) parallelize,makeRDD,textFile
- Spark中parallelize函数和makeRDD函数的区别
- Spark中parallelize函数和makeRDD函数的区别
- Spark中parallelize函数和makeRDD函数的区别
- spark算子flatMap与textFile、saveAsTextFile结合小案例
- Spark textFile
- Spark源码解析之textFile
- Spark中join,union,textFile
- spark学习:1.textFile函数
- spark textFile 困惑与解释
- spark使用parallelize方法创建RDD
- spark--使用parallelize方法创建RDD
- Spark 算子
- spark算子
- spark 算子
- Spark算子
- spark算子
- java中的代码块和java的继承关系
- ccf 通信问题 连通图
- Mezzanine多site管理问题
- Linux文件管理 (实验3)
- linux音频子系统
- Spark算子[05]:parallelize,makeRDD,textFile
- mobx干货资料汇总
- MySQL锁的用法之行级锁
- C# 抽象类
- Mezzanine怎样为BLOG创建分级目录
- Html5基本标签的使用
- 多选框全选中,全选框自动选中
- PAT 1030. 完美数列(25)
- 指针和malloc构建一个可变二维数组