滑动窗口 TOPN 技术实现演变

来源:互联网 发布:上古卷轴5大叔捏脸数据 编辑:程序博客网 时间:2024/06/05 09:51

需求:

        文章表一张。

        每小时,统计出上一个小时(发文时间)文章内容中出现最多的前100个单词。

        其实就是一个 滑动窗口 TOPN

 

       方案1:单机单线程,定时每小时统计上一个小时的文章单词的前100个。

       优点:简单

       缺点: 数据量大,速度慢

 

   

      方案2:单机多线程,定时每小时统计上一个小时的文章单词的前100个。

       优点:较简单

       缺点: 数据量大,速度较慢

 

       方案3:多机多线程,Spark streaming, storm 

       优点: 复杂

       缺点: 数据量大,速度较块

       

 

 

 

       

0 0
原创粉丝点击