Scala in Spark 基本操作【未完】
来源:互联网 发布:ubuntu使用方法 编辑:程序博客网 时间:2024/06/05 10:46
[Apache Spark大数据分析入门(一)(http://www.csdn.net/article/2015-11-25/2826324)
spark 笔记 5: SparkContext,SparkConf
spark读取hbase
Scala 强大的集合数据操作示例
spark中的一些RDD操作以及变换
# 创建textFileRDDval textFile = sc.textFile("README.md")textFile.first() #获取textFile RDD的第一个元素res3:String = # Apache Spark# 筛选出包括Spark关键字的RDD然后进行行计数val linesWithSpark = textFile.filter(line => line.contains("Spark"))linesWithSpark.count()res10:Long = 19# 找出RDD textFile中包含单词数最多的行textFile.map(line=>line.split(" ").size).reduce((a,b)=>Math.max(a,b))res12:Int = 14 #第14行是包含单词最多的行# 在scala shell中引入Java方法:import java.lang.MathtextFile.map(line=>line.split(" ").size).reduce((a,b) => Math.max(a,b))#将RDD linesWithSpark 缓存,然后进行计数linesWithSpark.cache()res13:linesWithSpark.type = MapPartitionsRDD[8] at filter at <console>:23linesWithSpark.count()res15:Long = 19
RDD:
makeRDD 和 parallelize是一样的,不过makeRDD好像只能scala用,parallelize是Python和 R都能用的
# 通过单词列表集合创建RDD thingsRDDval thingsRDD = sc.parallelize(List("spoon","fork","plate","cup","bottle"))# 计算RDD thingsRDD中单词的个数thingsRDD.count()res16:Long = 5
groupByKey( )转换操作
pairRDD.groupByKey()#得到:Banana [Yellow]Apple [Red, Green]Kiwi [Green]FIgs [Black]
collect 或 materialize linesWithSpark RDD中的数据
collect方法返回计算好的数值。??
linesWithSpark.collect()
缓存RDD linesWithSpark
linesWithSpark.cache()
将linesWithSpark从内存中删除
linesWithSpark,unpersist()
RDD的部分转换操作:
0 0
- Scala in Spark 基本操作【未完】
- Spark 协同过滤 in scala
- oracle 基本操作 未完待续
- scala 未完
- scala函数基本操作
- Scala List基本操作
- scala spark hbase 操作案例
- Spark Scala DataFram join 操作
- Spark基础-Scala集合操作
- Spark基础-Scala文件操作
- Spark:Scala实现action操作
- spark RDD 基本操作
- 【spark】DataFrame基本操作
- Spark RDD基本操作
- Spark RDD基本操作
- scala基础----》map基本操作
- Scala集合基本操作(1)
- scala 在 spark 中操作 hdfs
- MPlayer源代码分析
- 点击弹出日期和时间对话框
- LeetCode -- Maximum Gap
- 使用 HighCharts 动态获取后台数据生成图表
- 关联容器
- Scala in Spark 基本操作【未完】
- LeetCode 112 : Path Sum 1,2,3(Java)
- TOMCAT常用优化
- Perl相关,未完成,自己看
- TensorFlow跟踪
- 逐行快速读入
- Bootstrap表单介绍
- java 中的异常
- Heap与stack的差别