spark开发第一天

来源:互联网 发布:org.apache.xml jar包 编辑:程序博客网 时间:2024/05/16 12:25


package com.dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WorkCount {  def main(args: Array[String]) {    /**     * 第一步 :设置spark的配置队形SparkConf,设置Spark运行程序的配置信息     */    val conf =      new SparkConf(); //创建SaprkConf    conf.setAppName("WOW,MY FIRST SPARK APP"); //应用程序名称    conf.setMaster("local"); //本地运行    /**     * 第二步:创建SparkContext对象(Spark程序唯一入口),初始化核心组件:DAGScheduler、TashScheduler、SchedulerBackend     * 同时负责Spark的Master注册程序     */    val sc = new SparkContext(conf)    /**     * 第三步:根据数据来源(HDFS、HBase、Local FS、 DB、S3等)通过SparkContext创建RDD     * RDD创建三种方式:更具scala集合、由其他RDD操作产生     * 数据会被RDD划分一系列的Partitions,分配到每个Partitions数据属于一个Task的处理范畴     */    val lines = sc.textFile("D:\\111.txt", 1) //读取本地文件并设置为一个Partition(类型推断val lines: RDD[String])    /**     * 第四步:对初始化RDD进行Transformation级别的处理,例如map、filter等高阶函数等的编程,来进行具体的数据计算     * (1)将每一行的字符串拆分成大的集合(2)拆分基础上每个单词实例计数为1(word => (word,1))     * (3)统计每个单词出现总次数     */    val words = lines.flatMap { line => line.split(" ") } //大集合    val pairs = words.map { word => (word, 1) }    val wordCounts = pairs.reduceByKey(_ + _) //对相同key,value累加(包括Local和Reducer级别同时Reduce)    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + ":" + wordNumberPair._2))    sc.stop()  }}

0 0