Spark平台上的JavaWordCount示例
来源:互联网 发布:网络掉包测试软件 编辑:程序博客网 时间:2024/05/16 09:00
WorldCount目录结构如下:
[root@master WordCount]# find .../src./src/main./src/main/java./src/main/java/JavaWordCount.java./pom.xml
其中./pom.xml内容如下:
(注意对应以后生成的jar包,本例中最后生成word-count-1.0.jar)
<project> <groupId>edu.berkeley</groupId> <artifactId>word-count</artifactId> <modelVersion>4.0.0</modelVersion> <name>JavaWordCount</name> <packaging>jar</packaging> <version>1.0</version> <dependencies> <dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.2.0</version> </dependency> <dependency> <!-- Hadoop dependency --> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version> </dependency> </dependencies></project>
./src/main/java/JavaWordCount.java内容如下:
import scala.Tuple2;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.function.PairFunction;import java.util.Arrays;import java.util.List;import java.util.regex.Pattern;public final class JavaWordCount { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exception { if (args.length < 1) { System.err.println("Usage: JavaWordCount <file>"); System.exit(1); } SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount"); JavaSparkContext ctx = new JavaSparkContext(sparkConf); JavaRDD<String> lines = ctx.textFile(args[0], 1); JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { @Override public Iterable<String> call(String s) { return Arrays.asList(SPACE.split(s)); } }); JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); } }); JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() { @Override public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<?,?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } ctx.stop(); }}
进入WorldCount目录,并编译程序并打包:
[root@master WordCount]# mvn package
然后往集群上发布:
[root@master WordCount]#spark-submit \ --class JavaWordCount \ --master yarn-cluster \ --num-executors 2 \ --executor-memory 6g \ --executor-cores 4 \ target/word-count-1.0.jar \ /user/root/random0.data
若–master 后用的是yarn-cluster,则在log日志中(从WebUI进入)查看结果
package: 1For: 2processing.: 1Programs: 1Because: 1The: 1cluster.: 1its: 1……
若–master 后用的是yarn-client,则在控制台查看结果
阅读全文
0 0
- Spark平台上的JavaWordCount示例
- Spark平台上的JavaWordCount示例
- spark的几个示例
- 运行JavaWordCount
- 在linux上,用scalac编译在Spark平台上运行的scala程序
- 在ubuntu 16.04上搭建spark平台
- spark示例
- 在windows上使用eclipse提交Spark任务到Spark平台上
- 在windows上使用eclipse提交Spark任务到Spark平台上
- 在阿里云上搭建 Spark 实验平台
- Spark的join与cogroup简单示例
- Spark Scalaa 几个常用的示例
- 基于Hbase的Spark Sql示例 一
- Sparkler:Spark上的爬虫
- Spark SQL 数据源 API:Spark平台的统一数据接入
- 闪亮的新星--Spark大数据处理平台
- 嵌入式 x86与arm不同平台上驱动Makefile示例
- 在 Windows 平台上运行 FreeRTOS 示例程序
- MUI预加载,从列表页到详情页
- 利用OpenCV进行图像配准
- js操作dom元素的例子
- requests库入门-3-urllib和requests小程序
- 算法提高 ADV-82 填充蛋糕
- Spark平台上的JavaWordCount示例
- 洛谷 P1796 汤姆斯的天堂梦_NOI导刊2010提高(05)
- [Python][小知识] Python字符串前 加 u、r、b 的含义
- JAVA学习52_ Java 如何删除文本文件指定的行?
- tensorflow
- linux-vim
- HDU 6158 The Designer【计算几何+笛卡尔定理+韦达定理】
- 面向对象知识点总结
- JQ对象和DOM对象的转换