社会媒体中的谣言分析框架(IEEE2011)

来源:互联网 发布:知乎网络小说推荐 编辑:程序博客网 时间:2024/05/22 15:32

Rumor analysis framework in social media 社会媒体中的谣言分析框架(IEEE2011)

文章提出的框架阐明了社会媒体中的话题,可视化时间序列变量上的话题结构。然后提取谣言候选,从其他媒体比如电视节目、报纸等寻找相关信息来证实谣言候选的可信度。通过这一框架,可以显示潜在谣言。
在谣言信息出现之前,没有像新闻或电视节目的可信信息源。文章提出的框架,没有以特定的商品为目标,不需要特定的本体。关注于话题问题,关注于词的共现,可视化话题问题和人们在社会媒体的话题之间无法预料的关系,通过寻找其他主要媒体的相关信息验证话题可信度,检测谣言信息。
框架由以下六步组成:1.爬虫。2.语言处理。3.图转换。4.可视化。5.图编辑距离计算。6.谣言信息检测。

  • 语言处理
    使用形态学分析从文档中提取关键词:名词,动词,形容词和副词,然后计算单个关键词的得分。至于得分计算方法,使用剩余IDF(RIDF),隐形语义分析(LSA)和词项-逆文档频率(tf-idf)。根据观察RIDF提示了文档内容,适合提取关键词。
  • 图转换
    该步的输入是上一步的输出,是一个信息id和带高分的关键词。这一步构建有向图展示谣言信息结构。使用参考文献中的概念图,表示文档集出现的关键词间的相关上位关系。定义v和u的相关系数:r(v,u)=df(u*v,X)/df(v,x),U是全体目标文档的集合,X是U的一个子集,u和v是关键词,df(u,X)代表X中包含关键词u的文档数,df(u*v,X)代表X中包含关键词u和v的文档数。如果r(v,u)>0.5并且df(u,X)>df(v,X),则定义u从文档频率的角度看比v大。上下位关系决定了特征词的结果次序,可以形成有向无环图。通过把高频率的词放在左边,低频率的词放在右边可视化概念图。在概念图中,节点为文档集的关键词,边标签代表与父节点、孩子节点关联的商品类名,权重是两节点关联的边数。
  • 图编辑距离
    定义图编辑距离公式,图编辑距离对检测全局结构变化很有用。
  • 谣言信息检测
    提取谣言信息的过程如下:(1)基于图编辑距离的变化,检测在时间序列变量上概念图的主要结构变化。当概念图结构变大,表明话题的快速传播。快速传播的话题是谣言的候选。(2)对每个谣言候选信息,用可信源如电视节目证实可信度。谣言候选信息在社会媒体出现之前,如果在可信信息源上有相似的信息,则成为谣言的可能性高。(3)观察市场数据如商品出货量来证实谣言信息对顾客行为的影响。
    未来工作:引入子图检测函数,自动提取谣言;更有效地连接社会媒体和市场数据。
0 0
原创粉丝点击