spark2.0 翻译:Quick Start 快速开始
来源:互联网 发布:简约博客网站源码 编辑:程序博客网 时间:2024/05/18 01:16
实话实说,建议你们直接看这个网址:http://www.apache.wiki/display/Spark
他们团队翻译的很好,以后我就不在自己博客献丑了哦。
- spark编译包下载解压及JDK环境配置
-首先先去下载spark编译好的包,http://spark.apache.org/downloads.html
由于spark不依赖hadoop而运行,所以我们此处可以下载任意hadoop编译版本的spark,之后解压
-接下来下载jdk并配置JAVA_HOME 使用spark shell进行交互式操作
1).基本用法
spark shell提供了简单方式来学习api,以及非常好用的工具交互式地去分析数据。可以使用scala(运行在java虚拟机上并且可以很好地调用java的各种库)或者python。本文只使用scala哦
在spark解压目录下执行:./bin/spark-shell
spark的主要抽象是一个叫做弹性数据集(RDD)的分布式的事物集合,RDDs从hadoop的格式化输入(hdfs的文件)或者由其他RDDs转化而来。接下来就使用spark目录的README文件创建一个RDD
scala> val textFile = sc.textFile(“README.md”)
textFile: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at :24这样我们由一个文件生成了一个spark的RDD。
RDDs包含action行为操作(统计等操作的)和 transformation转换操作(生成新的RDDs)。接下来我们使用一些action操作。scala> textFile.count()
res0: Long = 99值得一提的是我们在spark-shell的命令行窗口里可以使用tab进行命令补全提示,包括actions的提示,这里我们统计了一下文件的行数,共99行。我们还可以输出文件的第一行内容,格式如下:
scala> textFile.first()
res1: String = # Apache Spark接下来,我们使用transformation转换来返回这个文件内容子集的一个新的RDD:
scala> val linesWithSpark = textFile.filter(line => line.contains(“Spark”))
linesWithSpark: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at :26我们对textFile的RDD执行过滤的转换,获取其中包含Spark关键字的行的RDD集合。我们还可以将transformation与action一块用
scala> textFile.filter(line => line.contains(“Spark”)).count()
res2: Long = 192)RDD的更多操作
RDDs的action行为和transformations转换可以被应用到更加复杂的计算中。比如我们现在要获取一行最多有多少单词:scala> textFile.map(line => line.split(” “).size).reduce((a, b) => if (a > b) a else b)
res4: Long = 15第一步将每行映射成一个整数,并创建成一个新的RDD。reduce被调用,查找出最大的数值。
- spark2.0 翻译:Quick Start 快速开始
- Spark2.1.0官方文档:快速开始-Quick Start
- Spark2.1.0官方文档:快速开始-Quick Start
- MySQL集群快速指南-MySQL Cluster Quick Start Guide 翻译
- 【Apache Avro】quick start快速开始,示例教程
- Firefox OS Quick Start(Firefox OS快速开始)
- Firefox OS Quick Start(Firefox OS快速开始)
- [Cougaar]Cougaar快速开始指导(Cougaar Quick Start Guide)
- Programming Quick Start Guide翻译
- SymmetricDS文档翻译--【Chapter 0.SymmetricDS快速入门指南( Quick Start Guide)】
- 《Drools6.4 中文文档》第18章18.2 Quick Start(快速开始)
- Unreal教学(8)——蓝图学习快速开始(Blueprints Quick Start Guide)
- JBoss 3 Quick Start 文档翻译
- Quick Start With PyCharm(翻译)
- Spark官方文档翻译:Quick Start
- FireBird 1.5 Quick Start(快速入门)简体中文
- Grails快速入门(Quick Start)
- FireBird 1.5 Quick Start(快速入门)简体中文
- Android 索引的实现
- Python计算程序运行时间
- Docker数据管理
- 容器的使用
- AngularJS内置指令
- spark2.0 翻译:Quick Start 快速开始
- 【codevs1409】 拦截导弹 2
- iOS armv7,armv7s,arm64,i386,x86_64 概念及制作对应的静态库
- location.href用法
- 哈希表
- JavaScript prototype背后的工作原理
- RandomAccessFile实现文件分割、合并
- Windows OS 消息泵(消息循环处理)
- 两个字符串的最大公串