Spark学习(一) 基本操作
来源:互联网 发布:seo自动优化 编辑:程序博客网 时间:2024/06/13 07:51
先来一个简单的spark小程序,这是官网上的小例子,目的就是统计spark下面的README文档中包含字母a和字母b的个数,然后
打印,代码如下:
object BasicStandaloneApp extends App{ val logFile = "/home/xiaoyi/software/spark/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))}由于scala代码一般是使用sbt进行项目管理,所以我们还需要在相应的sbt文件中添加spark相依的依赖,如下所示:
name := "learning_spark"version := "1.0"libraryDependencies += "org.apache.spark" %% "spark-core" % "1.1.0"
这是sbt管理文件的基本格式.
从这个例子中我们可以看出spark程序的基本结构,spark的程序需要两个基本的类,第一个是SparkConf它负责spark程序的基本配置.比如上面例子中设置master 为"local"的话,就表示程序在本地执行,另外一个非常重要的类是SparkContext, spark程序的运行都是有它的实例进行启动和空值.
对于上面的例子如果在IDE中的话我们就可以直接右键run了,效果如下:
虽然这样的执行比较简单,但是终究还是得放到saprk容器或者说上集群跑的,具体的也就是先将你的应用打个包,然后用spark submit提交即可
命令如下:
spark-submit --class BasicStandaloneApp --master local target/scala-2.10/learning_spark_2.10-1.0.jar
local是spark master所在地址
任务监控界面如下:
0 0
- Spark学习(一) 基本操作
- Spark笔记:RDD基本操作(一)
- Spark学习——RDD基本操作
- Spark学习之RDD基本操作
- Spark学习(一)--RDD操作
- cordova学习一:基本操作
- spark RDD 基本操作
- 【spark】DataFrame基本操作
- Spark RDD基本操作
- Spark RDD基本操作
- Android 蓝牙编程学习一基本操作
- 学习EMACS基本操作(一)
- Android 蓝牙编程学习一基本操作
- Unity3D 学习笔记(一) 基本操作
- MATLAB学习笔记(一):基本操作
- Java 学习(一)基本操作
- Linux学习(一)基本操作
- Vim编辑器基本操作学习(一)
- 重构全面总结
- stl里面神奇的sort函数
- 第十二周项目3---2
- .net My.Computer.Network 几个秒用
- sql之left join、right join、inner join的区别
- Spark学习(一) 基本操作
- ZStack单播组播广播具体操作与原理资料整理
- 重构-改善既有代码的设计:处理概括关系 (九)
- ZStack间接panid通信设置(将zigbee改装成点对点通信的方法)
- 编程实现两个正整数的除法
- 重构与模式:改善代码三部曲中的第三部
- Z-STACK非易失性存储
- typedef和define具体的详细区别
- erlang热更新的实现与原理