Introduction to Big Data with Apache Spark——week2课题笔记
来源:互联网 发布:淘宝借贷宝在哪里 编辑:程序博客网 时间:2024/05/18 00:04
SparkContext
RDD
代码:
直接使用python的数据类型创造:
从外部文件创造:
Transformations
代码:
Action
代码:
Cache
Spark流程
其他注意
1. key-value类型
2. 共享变量
2.1 广播变量
其实就是定义了一个只读的全局变量,给所有机子缓存一份。
共享变量允许程序员将一个只读的变量缓存在每台机器上,而不是让每个任务随带一个变量的副本。广播变量为在每个节点上提供海量的输入数据集提供了一种高效的方式。Spark会尝试使用高效饿广播算法来减少分发广播变量的通信消耗。
广播变量通过调用SparkContext.broacase(v)创建, v是一个变量。广播变量是v的封装, v的值可以通过value方法访问。
代码:
broadcastVar = sc.broadcast([1, 2, 3])broadcastVar.valueout:[1, 2, 3]
2.2 累计器
累计器是只能通过关联操作做“加”运算的变量,从而可以高效支持并行。它可以用来实现计数器或者求和。Spark原生支持数字类型的累计器,程序员可以增加对新类型的支持。 如果累加器创建时赋给了一个名字,那么这个累加器会在Spark的UI上展现。这个有利于理解程序的执行过程(遗憾的是这个功能Python中暂不支持)。
累计器通过调用函数SparContext.accumulator(v)并赋予一个初值来创建。然后跑在集群上的任务就可以使用add方法或者+=运算符增加累计器的值。但是,任务是不能读这个累计器的值得,只有驱动程序才可以通过方法value来读。
代码:
accum = sc.accumulator(0)sc.parallelize([1, 2, 3, 4]).foreach(lambda x:/ accum.add(x))accum.valueout:10
总结
阅读全文
0 0
- Introduction to Big Data with Apache Spark——week2课题笔记
- BerkeleyX CS100.1x"Introduction to Big Data with Apache Spark"环境搭建
- Introduction to Big Data
- An introduction to Apache Hadoop for big data
- Introduction To Apache Spark(1)
- Pentaho Work with Big Data(二)—— Kettle提交Spark作业
- Data Mining with Big Data--阅读笔记
- Is Apache Spark the Next Big Thing in Big Data?
- Coursera--Big Data Analysis with Scala and Spark
- Big Data Analytics with Spark.pdf 英文原版 免费下载
- Big Data Spark
- 友情序言 to 《Learning Spark: Lightning-fast big data analytics》
- 友情序言 to 《Learning Spark: Lightning-fast big data analytics》
- Introduction.to.Machine.Learning.with.Python 笔记
- Big Data with MATLAB
- [翻译]Introduction to Monoids and Semigroups with Spark
- Solutions to big data
- Introduction to Data Mining
- 做史上唯一封过总统账号的男人是怎样的体验?
- 人工智能技术将改变医疗业
- wget命令
- Spring框架(1)---Spring入门
- AdminLTE 2的组件Component
- Introduction to Big Data with Apache Spark——week2课题笔记
- get和post请求
- 最难的问题
- 在docker中部署静态网页
- mysql按半小时或1小时分组统计
- 入门到放弃node系列之MySQL数据库的简单使用
- 输入一行字符,计算字符中有多少单词,单词和单词之间以空格分开
- web项目导入eclipse为何显示java项目
- 8.4 Calendar类