使用IDEA进行Spark开发(二)-第一个scala程序
来源:互联网 发布:ug8.5加工编程视频教程 编辑:程序博客网 时间:2024/05/18 00:18
上面一篇文章博主已经给大家演示好了如何去配置一个本机的scala开发环境,现在我们就一起去写我们的第一个spark开发的scala程序吧!
- 打开IDEA,选择创建一个新的工程文件。
- 点击scala,创建一个scala工程
- 输入我们程序名称——word_count,我们要写一个词频统计程序。
JDK选择1.7
scala选择我们下载安装好的scala环境目录,这里是2.10.5
点击完成,即可进入程序界面 - 导入scala与spark配置
新建两个包,main与count
便于整理自己的代码结构 - 导入scala包与spark包
右键进入Module setting界面或直接按快捷键F4
进入librarys
点击JAVA,然后找到spark路径spark-1.5.1-bin-hadoop2.6\lib\spark-assembly-1.5.1-hadoop2.6.0.jar
导入jar包。
然后进入global library
点击scala,导入scala 2.10.5. - 新建scala文件,编写scala程序
- 编写词频统计程序
程序如下:
package com.exerciseimport org.apache.spark.{SparkContext, SparkConf}/** 1. Created by flet on 2016/7/7. */object WordCount { def main(args : Array[String]) = { val conf = new SparkConf().setAppName("WordCount") val sc = new SparkContext(conf) val input = args(0) val texts = sc.textFile(input).map(line => line.split(" ")) .flatMap(words => words.map(word => (word.replaceAll("[^A-Za-z]", ""), 1))) val counts = texts.reduceByKey(_ + _) counts.collect.foreach{ case (word, num) => println(word + " " + num.toString) } }}
8.运行scala程序
指定文件路径
点击右上角,设置路径
按上面的加号,添加application
填写如下
9.查看结果
点击运行wordcount
等待一会就会看到控制台输出一些流信息与结果。
如下图:
到这里,我们的第一个spark开发的scala程序就结束了,我们成功的统计了一篇文章的词频,并且输出在控制台里。
大家有没有感觉到大数据的神奇之处呢?
如果大家有什么问题可以和博主讨论,其实博主也是刚刚接触这一方面。
文章的最好放一张原始数据的图片。
0 0
- 使用IDEA进行Spark开发(二)-第一个scala程序
- 使用Scala写第一个Spark程序
- ubuntu+idea+scala第一个scala程序
- 使用IDEA构建Spark Scala开发环境(支持maven)
- Intellij IDEA使用Maven搭建spark开发环境(scala)
- 使用IDEA进行Spark开发(一)-IDEA的配置
- 使用IDEA开发spark程序
- Spark程序进行单元测试-使用scala
- Eclipse+scala-plugin开发第一个spark程序WordCount并部署运行
- Scala基础入门(三)使用Scala IDE编写第一个Scala程序
- 第一个spark scala程序——wordcount
- 使用IDEA编写基于Scala的spark程序中的常见问题
- 第一个scala程序
- Spark第一个程序开发 wordcount
- scala 开发spark程序
- idea使用maven构建java和scala项目开发spark
- 使用IDE(eclipse,idea)开发spark程序
- Spark学习(二):使用Spark开发wordcount程序
- sendto、WSASendto,recvfrom、WSARecvfrom 区别?
- webcollector 初探(一)
- Android中Fragment生命周期详解
- Segment 快速乘(二进制模拟乘)类似于快速
- Android Theme的使用
- 使用IDEA进行Spark开发(二)-第一个scala程序
- ip_forward参数对Linux内核转发影响分析
- Windows操作系统网络I/O模型
- 正则表达式
- 二叉树题目整理(一)
- Android中Activity生命周期详解
- 全排列的递归算法
- 学习笔记之C++ 输出代码的几种形式
- IPC之共享内存(二)