Spark创建RDD

来源:互联网 发布:提高英语的软件 编辑:程序博客网 时间:2024/05/20 23:08
package com.wpimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/**  * Spark core  创建RDD  */object test0615 {  def main(args: Array[String]) {    val conf = new SparkConf().setAppName("RddCreate").setMaster("local");    val sc = new SparkContext(conf);    val data = Array(1,2,3,4,5,6,7,8,9);    /**      * 并行转化      *sc.parallelize方法 =>数组中的每个元素变成RDD中的每一行      */    //1)使用默认分片数    val rdd1: RDD[Int] = sc.parallelize(data);    //2)自定义分片数,集群中的每个CPU一般对应运行2~4个分片    val rdd2: RDD[Int] = sc.parallelize(data,3);    /**      * 外部文件转化      * sc.textFile      * 注意:该方法可以读取 多个文件、文件夹、压缩文件、通配符文件      * 默认为每一个block创建一个分片,也可指定,但指定的分片数不能小于block数。      */    //1)使用默认分片数    val rdd3 = sc.textFile("Input/data.txt");//当前目录下文件    val rdd4 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java");    //2)指定分片    val rdd6 = sc.textFile("hdfs://hdfsnode1:8020/input/wc.java",6);  }}
0 0
原创粉丝点击