Spark的流处理-1
来源:互联网 发布:网络感叹号 不能上网 编辑:程序博客网 时间:2024/05/09 19:23
大规模流式处理数据的难题
一:可伸缩的节点数量
二:计算之外的开销最小化,比如减少复制,减少上行流的备份
三:减少延迟,支持时效0.5-2秒以内的80%实时流系统的能力
四:快速从故障中进行恢复,或者从慢节点中进行恢复
业务场景:
实时日志处理,机器学习
实时推荐系统
传统解决方案罗列:
1.模型
基于连续操作模型,长期运行的带有状态的操作,会接受每条记录,更新状态,并且发送新的记录
问题:恢复故障
思路:复制,上行流备份【难以适合大规模集群,复制占用机器资源,上行流需要长时间恢复】,复制方案中的同步协议(Flux)
2.Spark的模型
D-Streams(离散流):将运算流化成一系列短时间间隔的,无状态,确定性的批计算。
a.针对给定的输入数据,每个时间间隔的状态完全确定,无需同步协议
b.针对新、旧状态之间的依赖关系,细粒度可见
难点:如何降低延迟,在内存中保持数据,并且根据lineage(血统)来进行恢复,避免复制
如何从故障和慢节点中进行恢复?
当某一个节点时效时,集群中的各个节点,都分担并且计算出丢失的那部分的RDD。
Spark还进一步支持,推测性执行
案例分析:
a.网站活动统计数据 (Facebook的Puma系统)
b.集群监控
c.垃圾邮件检测(实时检测)
0 0
- Spark的流处理-1
- Spark流处理(WordCount)
- Spark 定制版:018~Spark Streaming中空RDD处理及流处理程序优雅的停止
- Spark入门到精通视频学习资料--第四章:基于Spark的流处理框架Spark Streaming(2讲)
- Spark流处理项目介绍
- Spark流处理项目介绍
- Spark定制班第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止
- 第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止
- 第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止
- spark dataframe新增列的处理
- 45倍加速Spark的处理效率?!
- spark中自然语言处理的一些方法
- spark 处理遇到的问题解决方法
- Spark Streaming 处理中文异常的解决方案
- Hadoop和Spark的处理模型比较
- [spark] Task成功执行的结果处理
- 地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备
- Spark流处理图片转格式
- C++运算符重载(二)——使用方法
- A计划
- 表达式求值
- Unity5.0 EventSystem事件系统的详细说明
- C++(18)再谈指针
- Spark的流处理-1
- Eclipse Debug
- ListView的点击变色
- Android图片选择及裁剪
- C++_运算符重载
- django操作mysql时django.db.utils.OperationalError: (2003, "Can't connect to MySQL server")错误的解决办法
- 网络爬虫的实现
- oracle12创建用户错误ORA-65096: 公用用户名或角色名无效 invalid common user or role name
- 【javascript】 声明函数与函数表达式 的区别