Spark入门笔记
来源:互联网 发布:3d打印骨骼 知乎 编辑:程序博客网 时间:2024/06/15 20:02
1 什么是Spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
比如官网给点例子,读取文档后,统计包含a字母的行数等。
2 环境怎么配置
下载,后解压即可。
3 怎么使用。
可以使用命令行
[./bin/pyspark]
载入文件
统计行数:
>>> textFile.count()# Number of items in this RDD126
>>> textFile.first()# First item in this RDD
>>> textFile= sc.textFile("README.md")
4 在java下怎么使用。
maven 配置:
<dependency> <!-- Spark dependency --> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency>
java代码:
import org.apache.spark.api.java.*;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.Function;public class SimpleApp { public static void main(String[] args) { String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system SparkConf conf = new SparkConf().setAppName("Simple Application"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD<String> logData = sc.textFile(logFile).cache(); long numAs = logData.filter(new Function<String, Boolean>() { public Boolean call(String s) { return s.contains("a"); } }).count(); long numBs = logData.filter(new Function<String, Boolean>() { public Boolean call(String s) { return s.contains("b"); } }).count(); System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs); sc.stop(); }}
运行:打包后使用python命令运行。
$ mvn package...[INFO] Building jar: {..}/{..}/target/simple-project-1.0.jar# Use spark-submit to run your application$ YOUR_SPARK_HOME/bin/spark-submit \ --class "SimpleApp" \ --master local[4] \ target/simple-project-1.0.jar...Lines with a: 46, Lines with b: 23
阅读全文
0 0
- Spark入门笔记
- Spark入门笔记
- spark入门笔记
- Apache Spark 之 入门笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- Spark MLlib 入门学习笔记
- spark学习笔记总结-spark入门资料精化
- spark入门笔记(二)spark的stanalone模式
- Spark机器学习笔记1--Spark Python编程入门
- Spark学习笔记#1-快速入门
- Spark入门阅读文档笔记2
- React Native 环境搭建
- VLAN
- 关于springBoot实现动态Task任务周期
- vue中选择 axios 来完成 ajax 请求。
- 新人上手TensorFlow 之前前后后
- Spark入门笔记
- 8.5-全栈Java笔记:File类基本用法
- Scala入门到精通——第四节 Set、Map、Tuple、队列操作实战
- HttpComponents
- ORACLE 一个简单的存储过程逐行处理
- openfire集群搭建文档
- Android自定义控件---DrawText 基线的确定
- thinkPHP多语言时修改默认语言
- Python基础-TCP编程