用Scala在IDEA中开发WordCount

来源：互联网发布：周金涛2019买点知乎编辑：程序博客网时间：2024/05/29 00:30

package ScalaDemo

import org.apache.spark.{SparkConf, SparkContext}

/**
* Created by tg on 10/8/16.
*/
object WordCountDemo {
def main(args: Array[String]): Unit = {
/**
* 第1步：创建Spark的配置对象SparkConf，设置Spark程序的运行时配置信息，
* 例如：通过setMaster来设置程序要链接的Spark集群的Master URL,
* 如果设置local，代表Spark程序在本地运行，特别适合于机器配置条件差的情况。
*/
val conf = new SparkConf() //创建SparContext对象
.setMaster("local") //设置应用程序的名称，在程序运行的监控界面可以看到名称
.setAppName("WordCountDemo") //程序在本地运行
/**
* 第2步：创建SparkContext对象
* SparkContext是Spark程序所有功能的唯一入口，无论是采用Scala、Java、Python、R等,都必须有一个SparkContext。
* SparkContext核心作用：初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、
* SchedulerBackend，同时还会负责Spark程序往Master注册程序等。
* SparkContext是整个Spark应用程序中最为重要的一个对象。
*/
val sc = new SparkContext(conf) //创建SparkContext对象，通过传入SparkConf实例来设置Spark运行的具体参数和配置信息

/**
* 第3步：根据具体的数据来源（HDFS、HBase、Local FS、DB、S3等），通过SparkContext来创建RDD。
* RDD的创建基本有三种方式：根据外部的数据来源（如：HDFS）、根据Scala集合、由其它的RDD操作。
* 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Taxk的处理范畴。
*/
val lines = sc.textFile("hdfs://tgmaster:9000/in/words",1) //读取HDFS中的数据，并设置1个Partition

/**
* 第4步：对初始的RDD进行Transformation级别的处理，例如：map、filter等算子的编程来进行具体的数据计算。
* 4.1:将每一行的字符串拆分成单个的单词
* 4.2:在单词拆分的基础上对每个单词实例计数为1，也就是word=>(word,1)
* 4.3:在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数
*/
val result = lines.flatMap(_.split("\t")).map(word => (word, 1))
.reduceByKey(_ + _).map(m => (m._2, m._1)).sortByKey(true).map(m => (m._2, m._1))

result.foreach(item => println(item));
}
}

1 0