(Paper)使用LSH对Twitter做首报道检测(FSD)

来源:互联网 发布:淘宝卖家怎么设置佣金 编辑:程序博客网 时间:2024/06/06 04:46

本文地址:http://blog.csdn.net/mounty_fsc/article/details/51438405

《Streaming First Story Detection with application to Twitter》论文笔记

这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。

主要内容:

  1. 改进单纯应用LSH算法至FSD以提高精度
  2. 继续改进以能处理网络流文本
  3. 继续改进以能处理Twitter数据

6

  1. 介绍FSD与LSH
  2. 由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略
  3. 如何在无限数据的web文档流上做FSD(文档流的特点)
  4. 如何在Twitter上做FSD(Twitter上垃圾信息多)
  5. 实验

7

8

9

10

11

12

13

  • 事实上,还有其他策略,如全局的文档数量限制,保存近30天的

14

15

16

17

18

19

  1. 通过调整评分判定为新话题的阈值,得出图1
  2. 图1中没有限制bucket的大小
  3. 图1UMass系统用了28个小时,而本文方法用了2小时
  4. 图2单位是100个文档为一批

20

  1. 没有使用 @内的信息,因为希望算法能独立于各种流类型

21

22

0 0
原创粉丝点击