spark开发第一天

来源：互联网发布：org.apache.xml jar包编辑：程序博客网时间：2024/05/16 12:25
package com.dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WorkCount {  def main(args: Array[String]) {    /**     * 第一步 ：设置spark的配置队形SparkConf，设置Spark运行程序的配置信息     */    val conf =      new SparkConf(); //创建SaprkConf    conf.setAppName("WOW,MY FIRST SPARK APP"); //应用程序名称    conf.setMaster("local"); //本地运行    /**     * 第二步：创建SparkContext对象（Spark程序唯一入口），初始化核心组件：DAGScheduler、TashScheduler、SchedulerBackend     * 同时负责Spark的Master注册程序     */    val sc = new SparkContext(conf)    /**     * 第三步：根据数据来源（HDFS、HBase、Local FS、 DB、S3等）通过SparkContext创建RDD     * RDD创建三种方式：更具scala集合、由其他RDD操作产生     * 数据会被RDD划分一系列的Partitions，分配到每个Partitions数据属于一个Task的处理范畴     */    val lines = sc.textFile("D:\\111.txt", 1) //读取本地文件并设置为一个Partition（类型推断val lines: RDD[String]）    /**     * 第四步：对初始化RDD进行Transformation级别的处理，例如map、filter等高阶函数等的编程，来进行具体的数据计算     * （1）将每一行的字符串拆分成大的集合（2）拆分基础上每个单词实例计数为1（word => (word,1)）     * (3)统计每个单词出现总次数     */    val words = lines.flatMap { line => line.split(" ") } //大集合    val pairs = words.map { word => (word, 1) }    val wordCounts = pairs.reduceByKey(_ + _) //对相同key，value累加（包括Local和Reducer级别同时Reduce）    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + ":" + wordNumberPair._2))    sc.stop()  }}
0 0