社交媒体中的谣言检测(A11, AAAI2015)
来源:互联网 发布:首席数据官实战 编辑:程序博客网 时间:2024/05/01 23:35
Towards Detecting Rumours in Social Media 社交媒体中的谣言检测(A11, AAAI2015)
文章结果表明本文可以有效收集社交媒体中一系列故事的谣言,基于需要手动输入谣言特定关键词的现有技术这可能比较困难。文章引入了一个新颖的方法建立社交媒体谣言和非谣言数据集。该方法包含3个主要步骤:(1)收集紧急情况发布的原微博,这样采样易管理人们评估。(2)收集关联每个原微博的会话,包括讨论原微博的回复。(3)收集采样的微博的人工标注。
谣言标注
先前的微博谣言故事的标注工作基于这些故事以前的识别,如通过总结和揭露谣言的媒体报告,定义每个谣言的一组相关关键词用于过滤微博。该方法能保证为每个谣言收集许多微博,但是不能保证收集的关联一个事件的故事的多样性。文章定义广泛涉及正在进行事件的关键词,不是谣言本身,但是有望引发谣言。获取事件集合后,工作集中在可视化一个事件相关的微博时间轴,可以在不必要知道先验知识的情况下识别故事集的谣言内容,期望产生一个更多样的集合。
- 采用采样技术减少标注的微博数。有问题的信息直到被很多人传播和讨论后才成为谣言。基于这个假设,抽取超过给定数量转帖的微博。
- 一条微博发布时可能不能总是可以判定故事是否是谣言。因此也收集原微博的回帖。
- 为了方便标注任务,文章开发了一个工具,可视化事件关联的微博时间轴。
数据收集
- 使用微博流API收集微博,用一组关键词过滤关联特定正在发生事件的微博。
- 选择引发一定数量转帖的微博,用不同阈值经验测试,决定转帖数阈值。
- 抓取每条微博的网页收集对话(回帖)。
结果
由一记者团队进行数据标注。微博按天组织,点击一个特定的日期,可以看到当天发布微博的时间轴。文章的方法标注不以手动预定义的故事为驱动,可以发现不是很受关注的故事谣言。谣言由于争议性可能导致更多的回复。然而,非谣言也经常产生许多回复。
文章引入了一个新的谣言定义和一个收集、采样和标注事件相关微博的新方法。
0 0
- 社交媒体中的谣言检测(A11, AAAI2015)
- 社交媒体中的推荐相关
- 社会媒体中的谣言分析框架(IEEE2011)
- 用户体验引领Moblin项目中的社交媒体整合
- 警惕自媒体沦为谣言虎伥
- 独家 | 社交媒体假新闻检测方法及发展方向(附数据集)
- SEO与社交媒体博弈论
- 企业为何惧怕社交媒体?
- 中国社交媒体生态图谱
- 有的放矢地使用社交媒体
- 了解社交媒体分析过程
- 相关社交媒体分析的
- 社交媒体数据挖掘重要性
- 老外谈社交媒体:2015社交平台最新运营技巧
- 博客是媒体还是社交网络?
- 博客是媒体还是社交网络?
- 未来的社交媒体是怎样的?
- 社交媒体的美好时代将结束
- JavaScript学习(2)
- 十一月份--丢失英语感觉
- Java中Collection和Map集合总结
- 【Java并发编程实战】—–synchronized
- 设计模式(单例)
- 社交媒体中的谣言检测(A11, AAAI2015)
- Linux高精确的时序(sleep, usleep,nanosleep)
- Struts2:文件上传下载
- 非主流自然语言处理——遗忘算法系列(四):关键词提取
- iOS开发——支付宝Alipay
- 研究生开题报告
- ContentResolver().query的分组查询
- android ContentObserver和DatasetObserver的区别
- 同步、异步、互斥、信号量、阻塞、非阻塞