社交媒体中的谣言检测(A11, AAAI2015)

来源:互联网 发布:首席数据官实战 编辑:程序博客网 时间:2024/05/01 23:35

Towards Detecting Rumours in Social Media 社交媒体中的谣言检测(A11, AAAI2015)

文章结果表明本文可以有效收集社交媒体中一系列故事的谣言,基于需要手动输入谣言特定关键词的现有技术这可能比较困难。文章引入了一个新颖的方法建立社交媒体谣言和非谣言数据集。该方法包含3个主要步骤:(1)收集紧急情况发布的原微博,这样采样易管理人们评估。(2)收集关联每个原微博的会话,包括讨论原微博的回复。(3)收集采样的微博的人工标注。

谣言标注

先前的微博谣言故事的标注工作基于这些故事以前的识别,如通过总结和揭露谣言的媒体报告,定义每个谣言的一组相关关键词用于过滤微博。该方法能保证为每个谣言收集许多微博,但是不能保证收集的关联一个事件的故事的多样性。文章定义广泛涉及正在进行事件的关键词,不是谣言本身,但是有望引发谣言。获取事件集合后,工作集中在可视化一个事件相关的微博时间轴,可以在不必要知道先验知识的情况下识别故事集的谣言内容,期望产生一个更多样的集合。

  • 采用采样技术减少标注的微博数。有问题的信息直到被很多人传播和讨论后才成为谣言。基于这个假设,抽取超过给定数量转帖的微博。
  • 一条微博发布时可能不能总是可以判定故事是否是谣言。因此也收集原微博的回帖。
  • 为了方便标注任务,文章开发了一个工具,可视化事件关联的微博时间轴。

数据收集

  • 使用微博流API收集微博,用一组关键词过滤关联特定正在发生事件的微博。
  • 选择引发一定数量转帖的微博,用不同阈值经验测试,决定转帖数阈值。
  • 抓取每条微博的网页收集对话(回帖)。

结果

由一记者团队进行数据标注。微博按天组织,点击一个特定的日期,可以看到当天发布微博的时间轴。文章的方法标注不以手动预定义的故事为驱动,可以发现不是很受关注的故事谣言。谣言由于争议性可能导致更多的回复。然而,非谣言也经常产生许多回复。
文章引入了一个新的谣言定义和一个收集、采样和标注事件相关微博的新方法。

0 0