maven构建Scala程序,实现spark的wordcount
来源:互联网 发布:qq管家软件搬家 编辑:程序博客网 时间:2024/05/29 02:40
环境
jdk1.8
scala2.11.8
spark2.11
maven4.0
新建工程
ide:idea
新建一个maven工程,添加jdk和scala支持
然后添加maven依赖
编写wordcount代码
右键运行scala类
maven依赖:
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>test</groupId> <artifactId>test</artifactId> <version>1.0</version> <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11.8</version> </dependency> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-compiler</artifactId> <version>2.11.8</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.0-SNAPSHOT</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.3.0-SNAPSHOT</version> </dependency> </dependencies></project>
wordcout代码(忘了参考的哪位兄弟的,注释很详细):
package com.spark.app import org.apache.spark.{SparkContext, SparkConf} object WordCount { def main(args: Array[String]) { /** * 第1步;创建Spark的配置对象SparkConf,设置Spark程序运行时的配置信息 * 例如 setAppName用来设置应用程序的名称,在程序运行的监控界面可以看到该名称, * setMaster设置程序运行在本地还是运行在集群中,运行在本地可是使用local参数,也可以使用local[K]/local[*], * 可以去spark官网查看它们不同的意义。 如果要运行在集群中,以Standalone模式运行的话,需要使用spark://HOST:PORT * 的形式指定master的IP和端口号,默认是7077 */ val conf = new SparkConf().setAppName("WordCount").setMaster("local") // val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077") // 运行在集群中 /** * 第2步:创建SparkContext 对象 * SparkContext是Spark程序所有功能的唯一入口 * SparkContext核心作用: 初始化Spark应用程序运行所需要的核心组件,包括DAGScheduler、TaskScheduler、SchedulerBackend * 同时还会负责Spark程序往Master注册程序 * * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息 */ val sc = new SparkContext(conf) /** * 第3步: 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD * RDD 的创建基本有三种方式: 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、 * 由其他的RDD操作产生 * 数据会被RDD划分成为一系列的Partitions,分配到每个Partition的数据属于一个Task的处理范畴 */ val lines = sc.textFile("D:/resources/README.md") // 读取本地文件 // val lines = sc.textFile("/library/wordcount/input") // 读取HDFS文件,并切分成不同的Partition // val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input") // 或者明确指明是从HDFS上获取数据 /** * 第4步: 对初始的RDD进行Transformation级别的处理,例如 map、filter等高阶函数来进行具体的数据计算 */ val words = lines.flatMap(_.split(" ")).filter(word => word != " ") // 拆分单词,并过滤掉空格,当然还可以继续进行过滤,如去掉标点符号 val pairs = words.map(word => (word, 1)) // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1) val wordscount = pairs.reduceByKey(_ + _) // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加 // val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2) // 等同于 wordscount.collect.foreach(println) // 打印结果,使用collect会将集群中的数据收集到当前运行drive的机器上,需要保证单台机器能放得下所有数据 sc.stop() // 释放资源 } }
result
17/10/09 16:25:59 INFO SparkUI: Stopped Spark web UI at http://WINDOWS-0EQCJPQ.hs.handsome.com.cn:4040(hello,14)(h1,14)17/10/09 16:25:59 INFO MapOutputTrackerMasterEndpoint: MapOutputTrackerMasterEndpoint stopped!17/10/09 16:25:59 INFO MemoryStore: MemoryStore cleared17/10/09 16:25:59 INFO BlockManager: BlockManager stopped17/10/09 16:25:59 INFO BlockManagerMaster: BlockManagerMaster stopped17/10/09 16:25:59 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!17/10/09 16:25:59 INFO SparkContext: Successfully stopped SparkContext17/10/09 16:25:59 INFO ShutdownHookManager: Shutdown hook called17/10/09 16:25:59 INFO ShutdownHookManager: Deleting directory C:\Users\hanqian18790\AppData\Local\Temp\spark-14748c73-2d1d-46b1-82de-5c1328f7fabe
阅读全文
0 0
- maven构建Scala程序,实现spark的wordcount
- 基于HDFS的spark分布式Scala wordcount程序测试
- WordCount的Scala实现
- scala-eclipse 编写spark简单程序 WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Scala和Java实现WordCount
- Spark:用Java和Scala实现WordCount
- Spark实战----(1)使用Scala开发本地测试的Spark WordCount程序
- Spark学习笔记 --- scala实现Spark wordcount例子
- eclipse构建maven+scala+spark工程
- eclipse中构建maven+scala+spark
- eclipse构建maven+scala+spark工程
- spark streaming实现状态可恢复的wordcount计算程序
- 第三章
- java TCP、UDP笔记
- E 绝对半径2051 最长的连续相同序列的长度
- hdu 2804 先打表找规律
- [境内法规]中国人民银行令(2010)第2号--非金融机构支付服务管理办法
- maven构建Scala程序,实现spark的wordcount
- C++第一次培训
- ajax
- Retrofit2 的简单使用
- HDU
- C语言内联函数inline
- Cannot load 32-bit SWT libraries on 64-bit JVM 怎么修改解决?
- NIO Buffer中各重要状态属性的含义与关系以及源码解析(二)
- LeetCode 81和33