大数据学习笔记(十三)-SparkStreaming
来源:互联网 发布:美萍进销存软件破解版 编辑:程序博客网 时间:2024/06/03 20:51
1.概念
数据处理的基本单位:离散流(discretized stream或DStream)
支持容错
支持状态处理
支持窗口操作
2.DStream的基本操作
转化操作
窗口操作
输出操作
3.DStream特有API
参考:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.streaming.dstream.PairDStreamFunctions
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.streaming.dstream.DStream
①updateStateByKey(func)维持每个键的状态
②countByWindow(windowLength,slideInterval)返回基于滑动窗口的DStream中的元素数量
③reduceByKeyAndWindow(func,windowLength,slideInterval,[num tasks])基于滑动窗口对(K,V)键值对类型的DStream中的值按K使用聚合函数func进行聚合操作,得到新的DStream
④countByValueAndWindow(func,windowLength,slideInterval,[num tasks])基于滑动窗口计算源DStream中每个RDD内每个RDD每个元素出现的频次
4.SparkSteaming示例代码运行
代码保存位置:https://github.com/langyw98/SparkStreamingExample-NetworkWordCount
运行测试方法:
①打开9999端口的监听
nc -l -v 9999
提交编译好的作业
spark-submit --class NetworkWordCount --master local[*] ~/lib/networkwordcountexample_2.10-1.0.jar localhost 9999
5.SparkStreaming对比于离线计算的差别在于数据的来源,SparkStreaming提供了一系列数据的数据流结构,当完成数据读入后,数据的处理方法和Spark的离线计算无差别。
6.带状态的和无状态的流处理
7.带状态的流式操作-检查点-是一个目录名称
ssc.checkPoint(".")
参考代码:example/streaming下的StatefulNetworkWordCount.scala
8.窗口操作的概念
①批处理处理间隔,原始DStream处理间隔
②窗口,包括的DStream的个数就是窗口的长度
窗口必须是原始批处理的整数倍
③窗口解决了1~3,3~5,5~7这种有重叠的处理场景
④窗口的滑动时间间隔,前一个窗口到后一个窗口的时间间隔
- 大数据学习笔记(十三)-SparkStreaming
- 大数据学习笔记(十三)-Hive高级
- 大数据学习笔记之十三 云计算调度
- 学习笔记(十三)
- 大数据学习笔记之二十三 云存储的统一存储和相关技术
- struts2学习笔记之十三(数据标签)
- 大数据(十三) - Azkaban
- 大数据-十三
- java学习笔记(十三)
- Hibernate学习笔记(十三)
- Linux学习笔记(十三)
- 学习笔记(二十三)
- Linux学习笔记(十三)
- Java学习笔记(十三)
- Java学习笔记(十三)
- Java学习笔记(十三)
- python 学习笔记(十三)
- 数据库学习笔记(十三)
- 机器学习基石---第二周PLA
- tensorflow API:tf.control_dependencies
- windows下mangodb的安装与配置
- shell脚本:使用if-then语句和test命令
- 设计模式-单例模式
- 大数据学习笔记(十三)-SparkStreaming
- JavaSE基础语法中的修饰符
- 你想要知道的XMind快捷键大全都在这里
- vue 时间戳转换器
- 大端模式和小端模式以及程序运行内存空间分布
- Fresco磁盘内存缓存 工具类
- 多用户并发操作的解决方案
- 省选模拟(12.08) T1 逐梦逐梦逐梦
- 为Apache OpenOffice Writer 设置一个纯文本粘贴的快捷键