实时大数据处理框架Storm---推送系统
来源:互联网 发布:数据质量评估体系 编辑:程序博客网 时间:2024/05/18 03:17
1.背景
最近在接触实时大数据框架Storm,要求延时在秒级,需求包括用户转账实时APP和短信通知,新股破板通知等;数据规模在每天百万级,高峰期每秒1000。
2.架构设计
2.1 分块
该系统主要包括三部分:数据采集模块,数据加工模块,数据推送模块。
数据采集模块通过接收对应Topic的Kafka消息来实现,需要根据数据量设置分区个数,数据保留周期,数据发送准确级别(不重发,漏发);
数据加工模块通过Storm处理,从Redis获取一些常用信息,比如客户信息,股票信息,持仓信息等,加工成流水数据,将流水数据发到Kafka;
数据推送模块包括推送系统接收Kafka消息,并调用APP渠道或短信渠道接口进行数据推送。
3.问题
a.数据源延迟问题
数据高峰时期,由于数据源一般来自数据库bin-log日志,读取线程数与读取速度等因素都可能导致数据源延迟。
b.topic分区个数问题
分区个数决定了同一组消费者的最大个数。
c.Storm并发度设置
Spout并发度,bolt并发度
d.推送系统消费者个数设置
Kafka消费者线程数,注意多渠道划分导致总线程数远远超过生产机器的CPU总核数,可能出现部分线程阻塞情况。
e.渠道发送接口调用
http接口orRPC接口,同步或异步调用,批量发送大小设置
4.瓶颈
实时消息推送出现较长时间延迟时,说明系统出现瓶颈,此时应该查看生产系统各部分的吞吐情况,包括数据源延迟,Kafka消费能力,Storm处理能力,推送系统能力等
阅读全文
0 0
- 实时大数据处理框架Storm---推送系统
- Storm实时大数据处理(一)
- Storm实时大数据处理(二)
- 实时大数据处理之storm与zeroMQ
- Storm实时大数据处理(三)
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- Twitter Storm 实时数据处理框架分析总结
- 大数据处理的三种框架:Storm,Spark和Samza
- 大数据处理的三种框架:Storm,Spark和Samza
- Twitter利用Storm系统处理实时大数据
- 大数据架构:flume+Kafka+Storm+HDFS 实时系统组合
- 流式大数据处理 (实时)的三种框架:Storm,Spark和Samza
- Storm :twitter的实时数据处理工具
- 开放实时数据处理平台 Twitter Storm
- ViewPager的自动轮播与无限录播
- CentOS7+apache+php7+mysql5.7配置
- SpringMVC 启动流程及相关源码分析
- 一、Marvell 88W8686 WiFi模块的初始化代码
- 高软作业lab3
- 实时大数据处理框架Storm---推送系统
- velocity整合
- es6 let 和 const 命令
- 游戏中的随机地形生成算法(二)
- 使用讯飞实现语音听写与语音合成功能
- C#--Winform项目核心模块-基于DataTable显示全部成绩
- php -- 取路径:getcwd()、__DIR__、__FILE__ 的区别
- Python django文件传输
- 软件工程第三章第六题