社交媒体中的谣言检测(A11, AAAI2015)

来源：互联网发布：首席数据官实战编辑：程序博客网时间：2024/05/01 23:35

文章结果表明本文可以有效收集社交媒体中一系列故事的谣言，基于需要手动输入谣言特定关键词的现有技术这可能比较困难。文章引入了一个新颖的方法建立社交媒体谣言和非谣言数据集。该方法包含3个主要步骤：（1）收集紧急情况发布的原微博，这样采样易管理人们评估。（2）收集关联每个原微博的会话，包括讨论原微博的回复。（3）收集采样的微博的人工标注。

谣言标注

先前的微博谣言故事的标注工作基于这些故事以前的识别，如通过总结和揭露谣言的媒体报告，定义每个谣言的一组相关关键词用于过滤微博。该方法能保证为每个谣言收集许多微博，但是不能保证收集的关联一个事件的故事的多样性。文章定义广泛涉及正在进行事件的关键词，不是谣言本身，但是有望引发谣言。获取事件集合后，工作集中在可视化一个事件相关的微博时间轴，可以在不必要知道先验知识的情况下识别故事集的谣言内容，期望产生一个更多样的集合。

采用采样技术减少标注的微博数。有问题的信息直到被很多人传播和讨论后才成为谣言。基于这个假设，抽取超过给定数量转帖的微博。
一条微博发布时可能不能总是可以判定故事是否是谣言。因此也收集原微博的回帖。
为了方便标注任务，文章开发了一个工具，可视化事件关联的微博时间轴。

数据收集

使用微博流API收集微博，用一组关键词过滤关联特定正在发生事件的微博。
选择引发一定数量转帖的微博，用不同阈值经验测试，决定转帖数阈值。
抓取每条微博的网页收集对话（回帖）。

结果

由一记者团队进行数据标注。微博按天组织，点击一个特定的日期，可以看到当天发布微博的时间轴。文章的方法标注不以手动预定义的故事为驱动，可以发现不是很受关注的故事谣言。谣言由于争议性可能导致更多的回复。然而，非谣言也经常产生许多回复。
文章引入了一个新的谣言定义和一个收集、采样和标注事件相关微博的新方法。

0 0

社交媒体中的谣言检测(A11, AAAI2015)

Towards Detecting Rumours in Social Media 社交媒体中的谣言检测(A11, AAAI2015)

谣言标注

数据收集

结果