根据目前业务优化的新架构

来源:互联网 发布:淘宝浏览单佣金3 3 3 编辑:程序博客网 时间:2024/06/16 07:10

接收的数据量目前有10倍增长,行为数据每天已有6000w数据量,后续肯定还会有10倍的增长。

1数据的接收、接收数据决定就用kafka(高的数据吞吐量,还可以作为短期的缓存,可作为数据核查和补数据用)。

2数据清洗、mr直接从kafka从获取数据进行清洗(去重,过滤,编码),生成宽表文件放到hdfs上,(这一步千万不要做拆表,不然后续需要join就会很耗时,此处是空间换时间)。

3hbase使用、会入hbase的数据,需要走增量更新的数据,和标签。

4标签的处理方式、标签不能走实时打的方式,因为如1、实时程序出现了bug,或数据出现了峰值,2、打标签的计算量会很大(用到的相关数据也会很大),会很耗时。

5标签的存储、hbase和es,hbase是打标签的时候使用和对批量用户做标签汇总是使用,es是方便按标签来筛选用户使用

6大表关联、把筛选后的人群,放到临时文件,入到gb表中, 供对该部分人群的行为分析。

0 0
原创粉丝点击