spark开发第一天
来源:互联网 发布:org.apache.xml jar包 编辑:程序博客网 时间:2024/05/16 12:25
package com.dt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WorkCount { def main(args: Array[String]) { /** * 第一步 :设置spark的配置队形SparkConf,设置Spark运行程序的配置信息 */ val conf = new SparkConf(); //创建SaprkConf conf.setAppName("WOW,MY FIRST SPARK APP"); //应用程序名称 conf.setMaster("local"); //本地运行 /** * 第二步:创建SparkContext对象(Spark程序唯一入口),初始化核心组件:DAGScheduler、TashScheduler、SchedulerBackend * 同时负责Spark的Master注册程序 */ val sc = new SparkContext(conf) /** * 第三步:根据数据来源(HDFS、HBase、Local FS、 DB、S3等)通过SparkContext创建RDD * RDD创建三种方式:更具scala集合、由其他RDD操作产生 * 数据会被RDD划分一系列的Partitions,分配到每个Partitions数据属于一个Task的处理范畴 */ val lines = sc.textFile("D:\\111.txt", 1) //读取本地文件并设置为一个Partition(类型推断val lines: RDD[String]) /** * 第四步:对初始化RDD进行Transformation级别的处理,例如map、filter等高阶函数等的编程,来进行具体的数据计算 * (1)将每一行的字符串拆分成大的集合(2)拆分基础上每个单词实例计数为1(word => (word,1)) * (3)统计每个单词出现总次数 */ val words = lines.flatMap { line => line.split(" ") } //大集合 val pairs = words.map { word => (word, 1) } val wordCounts = pairs.reduceByKey(_ + _) //对相同key,value累加(包括Local和Reducer级别同时Reduce) wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + ":" + wordNumberPair._2)) sc.stop() }}
0 0
- spark开发第一天
- 学习spark第一天
- SPARK零基础第一天
- 封闭开发第一天
- iphone开发第一天
- Android 开发第一天
- Android开发第一天
- IOS开发第一天
- winform开发第一天
- iPad开发第一天
- mybatis开发(第一天)
- Android 开发第一天
- web开发第一天
- H5开发第一天
- Spark学习第一天-转自徽沪一郎
- 学习Spark第一天---1张图了解Spark
- Java开发前奏第一天
- Android开发学习第一天
- Android中沉浸式状态栏详解
- 慕课网-十天精通CSS3-CSS3选择器(下)
- BZOJ3850 ZCC Loves Codefires
- firefox os
- 深入Java源码解析容器类List、Set、Map
- spark开发第一天
- Angularjs的前端拦截器
- Unity UGUI 中butto 的transition 的Animation 怎么用?
- Linux下C语言执行MySQL语句
- linux 读取系统时间
- 设计模式之单实例
- 初入nodejs需要注意的问题---fs模块
- C# 反射获取项目下要运行的类
- CSS 基础(025_表单)