根据目前业务优化的新架构
来源:互联网 发布:淘宝浏览单佣金3 3 3 编辑:程序博客网 时间:2024/06/16 01:41
接收的数据量目前有10倍增长,行为数据每天已有6000w数据量,后续肯定还会有10倍的增长。
1数据的接收、接收数据决定就用kafka(高的数据吞吐量,还可以作为短期的缓存,可作为数据核查和补数据用)。
2数据清洗、mr直接从kafka从获取数据进行清洗(去重,过滤,编码),生成宽表文件放到hdfs上,(这一步千万不要做拆表,不然后续需要join就会很耗时,此处是空间换时间)。
3hbase使用、会入hbase的数据,需要走增量更新的数据,和标签。
4标签的处理方式、标签不能走实时打的方式,因为如1、实时程序出现了bug,或数据出现了峰值,2、打标签的计算量会很大(用到的相关数据也会很大),会很耗时。
5标签的存储、hbase和es,hbase是打标签的时候使用和对批量用户做标签汇总是使用,es是方便按标签来筛选用户使用
6大表关联、把筛选后的人群,放到临时文件,入到gb表中, 供对该部分人群的行为分析。
0 0
- 根据目前业务优化的新架构
- 12月份的新业务、新系统架构
- 目前优化的网站!
- 业务架构优化之路
- 美科利推出面向服务架构(SOA)的业务优化科技
- 目前主要的mail 架构
- SOA 新业务语言 新系统架构——SOA的目的、意义和价值
- 秒杀业务架构优化之路
- 秒杀业务架构优化之路
- 秒杀业务架构优化之路
- 秒杀业务架构优化之路
- 秒杀业务 架构优化之路
- 汽车行业的互联网营销业务目前有哪些种类
- 业务架构平台的建设
- 业务架构平台的发展
- 70%以上业务由H5开发,手机QQ Hybrid 的架构如何优化演进?
- 如何根据业务比例设定不同业务的用户比例?
- 目前系统系统用到的优化手段
- 向左无缝滚动javascript
- 子报表模型-报表模型-报表系统
- Reverse Bits
- centos7.1的java环境服务器
- Ubantu下安装OpenCV
- 根据目前业务优化的新架构
- Java IO流详尽解析
- jquery实现form表单的submit和reset
- LeetCode 230 Kth Smallest Element in a BST
- oracle分页查询原理
- sd卡启动分区的制作--使用fdisk 工具
- PE总结10---PE文件结构之导入表 (IMAGE_IMPORT_DESCRIPTOR)
- 解决中文乱码问题和懒加载问题的两款过滤器
- notify 和 notifyall 的区别,yield 和 wait,sleep的区别