spark之4:编程指南

来源:互联网 发布:萧航网络 编辑:程序博客网 时间:2024/06/05 17:29

spark之4:编程指南

@(SPARK)[spark, 大数据]

(一)快速入门:基本步骤

1、创建一个maven项目

2、增加pom.xml中的依赖

    <dependency>        <groupId>org.apache.spark</groupId>        <artifactId>spark-core_2.10</artifactId>        <version>1.5.1</version>    </dependency>

3、写代码

package com.lujinhong.sparkdemoimport org.apache.spark.SparkContextobject GrepWord {  def grepCountLog(path: String, keyWord: String) {    println("grep " + keyWord + " in " + path + ", the lineCount is: ")    val all = new SparkContext().textFile(path)    val ret = all.filter(line => line.contains(keyWord))    println(ret.count)  }  def main(args: Array[String]) {    grepCountLog("/tmp/lujinhong", "\"server\"");  }}

以上代码在hdfs中的某个目录grep “server”这个关键字。

4、打包代码

5、执行代码

/home/hadoop/spark/bin/spark-submit --master yarn-client --class  com.lujinhong.sparkdemo.GrepWor4d target/sparkdemo-0.0.1-SNAPSHOT.jar