编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
来源:互联网 发布:mac怎么装word文档 编辑:程序博客网 时间:2024/03/28 22:32
一、编写第一个用scala写的spark应用:
仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下:
http://spark.apache.org/docs/latest/quick-start.html
即:
/* SimpleApp.scala */import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp { def main(args: Array[String]) { val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system val conf = new SparkConf().setAppName("Simple Application") val sc = new SparkContext(conf) val logData = sc.textFile(logFile, 2).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println("Lines with a: %s, Lines with b: %s".format(numAs, numBs)) }}
整个程序作用是:找到这个文件
YOUR_SPARK_HOME/README.md
中有几个a和几个b。
二、用sbt进行打包成jar:
命令:sbt package
具体步骤见
http://spark.apache.org/docs/latest/quick-start.html
http://spark.apache.org/docs/latest/quick-start.html
中的Self-Contained Applications
打包时候几点注意:
1、
目录结构一定要对
目录结构可以通过find .来看
有点类似cmake的感觉
2、
总时间,近30分钟,开始打开会terminal没现象10分钟,然后开始要各种resolve,之后要下载很多库,我这边网速超慢
sbt是个联网编译器,
spark的应用用到了很多RDD的变换,来编译这些库都得去网上下相应的包
最后显示,编译时间11s
这时成功完成SimpleApp
三、在本机上测试:
命令为:
YOUR_SPARK_HOME/bin/spark-submit \
--class "SimpleApp" \--master local[4] \
target/scala-2.10/simple-project_2.10-1.0.jar
我对jar的理解就是一个可执行文件了,这个可执行文件在JVM上就可以跑了,local中4是指设置成4个线程,但具体原因我也不知道
注意submit的参数:
--class中 SimpleApp是包名
上传的的jar的地址别写错
第二次编译不知道会怎么样,因为按理说这些库都下好了,下次就不需要再重新下载了吧,不清楚包的利用率高不高
0 0
- 编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
- sbt的安装以及用sbt编译打包scala编写的spark程序
- 在standalone-cluster模式上运行spark应用程序(用sbt打包)
- 利用Scala编写Wordcount并在spark框架下运行
- 下载Spark并在单机模式下运行它
- 第99讲:手动Artifacts打包并运行SBT开发Akka第一个案例学习笔记
- Spark学习笔记7-在eclipse里用scala编写spark程序(单机和集群运行)
- Idea 编写 Spark 示例代码并打包成Jar
- Local模式下开发第一个Spark程序并运行于集群环境
- Scala学习1之用sbt和脚本一步编译打包运行scala程序
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- idea+maven+scala创建wordcount,打包jar并在spark on yarn上运行
- 使用Scala写第一个Spark程序
- sbt打包的jar包提交到spark
- ubuntu下编写并运行第一个c语言程序
- ubuntu下编写并运行第一个c语言程序
- Eclipse+scala-plugin开发第一个spark程序WordCount并部署运行
- 了解、安装sbt,使用sbt(console、IDEA)以及IDEA中打包spark的jar包
- android webView.loadData乱码问题的解决
- oracle模糊查询用法
- [土狗之路]coursera上C语言进阶第二周作业
- install glm library in ubuntu and use it in qt
- 支持向量机(SVM)(三)
- 编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
- 客户端模型取List中PeopleorGroup中的LoginName
- 手机市场竞争激烈,谁才是年度爆款品质之选?
- 深入浅出RPC——深入篇
- 安卓listview嵌套gridview时,造成listview的item无法获取焦点的问题
- 深入理解JSP
- 多线程-CountDownLatch
- 常用js函数
- install eigen in ubuntu and use it in qt