根据目前业务优化的新架构

来源：互联网发布：淘宝浏览单佣金3 3 3 编辑：程序博客网时间：2024/06/16 07:10

接收的数据量目前有10倍增长，行为数据每天已有6000w数据量，后续肯定还会有10倍的增长。

1数据的接收、接收数据决定就用kafka(高的数据吞吐量，还可以作为短期的缓存，可作为数据核查和补数据用)。

2数据清洗、mr直接从kafka从获取数据进行清洗（去重，过滤，编码），生成宽表文件放到hdfs上，（这一步千万不要做拆表，不然后续需要join就会很耗时，此处是空间换时间）。

3hbase使用、会入hbase的数据，需要走增量更新的数据，和标签。

4标签的处理方式、标签不能走实时打的方式，因为如1、实时程序出现了bug,或数据出现了峰值，2、打标签的计算量会很大（用到的相关数据也会很大），会很耗时。

5标签的存储、hbase和es,hbase是打标签的时候使用和对批量用户做标签汇总是使用，es是方便按标签来筛选用户使用

6大表关联、把筛选后的人群，放到临时文件，入到gb表中，供对该部分人群的行为分析。

0 0