通过网络挖掘检测谣言和误信息(2015)
来源:互联网 发布:淘宝怎么用余额宝分期 编辑:程序博客网 时间:2024/05/17 22:23
Detecting Rumor and Disinformation by Web Mining 通过网络挖掘检测谣言和误信息(2015)
文章基于网络挖掘和比较两个文本段落的语言技术,提出了一个检测给定文本是否是谣言或误信息的方法。通过内容产生算法,从真实文本的一部分产生误信息。提出一个误信息检测算法,采用分析森林技术,找到网络上的一个文本候选源,与给定的文本比较。分析森林是结合一系列句子间指代和修辞关系增广的分析树。
一些代理获取真实内容,替换特定的实体来支持他们的目的,并且传播这些内容。处理这些误信息的关键是识别源和高亮替换的实体。文章依赖于语言学方法进行给定文本和网络上其源的候选的相似度评估。文本源的寻找过程采用搜索引擎应用,通过网络挖掘进行。
找到一种方法进行自动内容生成,使得结果令消费者满意,并且被搜索引擎认为原创是谣言创建工具的关键。
误信息和谣言检测算法
输入:一部分文本(很可能发表在网络上);输出:输入文本的分类:正常或误信息(包括原真实信息和它的源)。
步骤:
- 对于一个给定的文本部分(种子),找到最重要的句子(类似于总结)。
- 对每个最重要的句子,以连接形式形成查询:
(X1∨Y1)∧(X2∨Y2)∧⋯∧(Xn∨Yn) ,其中Xi 和Yi 是关键词,它们中的一些可能会被替换,将不会出现在潜在的搜索结果中。 - 执行搜索,收集所有查询的搜索结果。
- 识别查询集的共同搜索结果。
- 形成候选文本集,可能是被分析文本的源。
- 对于每个候选,跟种子比较。如果发现带替代实体的高相似度候选,则种子是误信息。
- 对比种子文本和源文本,识别实体和它们的属性之间的映射。
- 对比源,识别添加到种子文本的情感。
步骤1~5按顺序直接执行,6~8需要一个语言学技术来匹配两部分文本和映射实体以及它们的属性。识别误信息的语言学技术需要用内容产生语言学手动并行开发。
评估标准:准确率和召回率。种子有越多的信息(文本越长),谣言识别过程的准确率越高,识别的属性的比例越低。召回率和识别的情感没有显著依赖于种子文本的大小。
0 0
- 通过网络挖掘检测谣言和误信息(2015)
- 通过人群响应进行中文谣言检测(IEEE2014)
- 识别微博的误信息(ACM2011)
- (信息搜集)通过DNS和IP地址挖掘目标网络信息:dig和nslookup
- (信息搜集)通过DNS和IP地址挖掘目标网络信息:whois
- 优捷信达与瑞士科学家探讨 利用数学算法挖掘网络谣言源头
- 坚决抵制谣言 网络谣言不完全收集
- 社交媒体中的谣言检测(A11, AAAI2015)
- 通过持续Ping来检测网络质量
- 数据挖掘(五)离群点检测
- ios 机型检测和网络检测
- Android 网络检测和网络监测
- android检测网络和设置网络
- android允许访问网络和检测网络
- 前端如何检测和如何优化(网络整理)
- 【数据挖掘】异常检测
- Mountain Lion(美洲狮)谣言终极盘点
- [数据挖掘]离群点检测---基于kNN的离群点检测、LOF算法和CLOF算法
- 最长上升子序列、最长下降子序列的DP算法由O(n^2)到O(nlogn)算法
- php/mysql实现搜索功能
- Html5拖放小例
- 过去是行不通的
- 剑指offer面试题28-字符串的排列
- 通过网络挖掘检测谣言和误信息(2015)
- 快速排序-QuickSort
- java中String 字符串中类的使用
- 从今天起开始认真学习C++primer plus
- 关于cocoapods中的一些细节问题
- mac os x使用Git简易入门教程
- Bug 9935857 - LOB indexes are missing from DBA_OBJECTS
- Google APAC 2016 University Graduates Test Round A解题报告
- 组合索引适用的情况