社会媒体中的谣言分析框架（IEEE2011）

来源：互联网发布：知乎网络小说推荐编辑：程序博客网时间：2024/05/22 15:32

文章提出的框架阐明了社会媒体中的话题，可视化时间序列变量上的话题结构。然后提取谣言候选，从其他媒体比如电视节目、报纸等寻找相关信息来证实谣言候选的可信度。通过这一框架，可以显示潜在谣言。
在谣言信息出现之前，没有像新闻或电视节目的可信信息源。文章提出的框架，没有以特定的商品为目标，不需要特定的本体。关注于话题问题，关注于词的共现，可视化话题问题和人们在社会媒体的话题之间无法预料的关系，通过寻找其他主要媒体的相关信息验证话题可信度，检测谣言信息。
框架由以下六步组成：1.爬虫。2.语言处理。3.图转换。4.可视化。5.图编辑距离计算。6.谣言信息检测。

语言处理
使用形态学分析从文档中提取关键词：名词，动词，形容词和副词，然后计算单个关键词的得分。至于得分计算方法，使用剩余IDF（RIDF），隐形语义分析（LSA）和词项-逆文档频率（tf-idf）。根据观察RIDF提示了文档内容，适合提取关键词。
图转换
该步的输入是上一步的输出，是一个信息id和带高分的关键词。这一步构建有向图展示谣言信息结构。使用参考文献中的概念图，表示文档集出现的关键词间的相关上位关系。定义v和u的相关系数：r(v,u)=df(u*v,X)/df(v,x)，U是全体目标文档的集合，X是U的一个子集，u和v是关键词，df(u,X)代表X中包含关键词u的文档数，df(u*v,X)代表X中包含关键词u和v的文档数。如果r(v,u)>0.5并且df(u,X)>df(v,X)，则定义u从文档频率的角度看比v大。上下位关系决定了特征词的结果次序，可以形成有向无环图。通过把高频率的词放在左边，低频率的词放在右边可视化概念图。在概念图中，节点为文档集的关键词，边标签代表与父节点、孩子节点关联的商品类名，权重是两节点关联的边数。
图编辑距离
定义图编辑距离公式，图编辑距离对检测全局结构变化很有用。
谣言信息检测
提取谣言信息的过程如下：（1）基于图编辑距离的变化，检测在时间序列变量上概念图的主要结构变化。当概念图结构变大，表明话题的快速传播。快速传播的话题是谣言的候选。（2）对每个谣言候选信息，用可信源如电视节目证实可信度。谣言候选信息在社会媒体出现之前，如果在可信信息源上有相似的信息，则成为谣言的可能性高。（3）观察市场数据如商品出货量来证实谣言信息对顾客行为的影响。
未来工作：引入子图检测函数，自动提取谣言；更有效地连接社会媒体和市场数据。

0 0

社会媒体中的谣言分析框架（IEEE2011）

Rumor analysis framework in social media 社会媒体中的谣言分析框架（IEEE2011）