基于Single-pass的文本话题聚类

来源:互联网 发布:淘宝返利网站哪个最好 编辑:程序博客网 时间:2024/06/10 12:58

研究背景

    随着互联网的快速发展以及移动互联网的全面普及,网民们相互沟通了解的方式越来越多样化。微博作为一个新兴的平台,以其独特的灵活性和便捷性,更加受到网民的青睐。微博给人们生活带来极大便利的同时,也产生了一些副作用,例如一些人使用微博蓄意传播假消息,给社会安定造成不良的影响。如果能够及早发现这些话题,就能及时采取相应的措施。对用户来说,用户只能看到自己主页上的微博消息,无法了解到整个微博网络中大多数用户都在讨论或者关注哪些事件。话题发现和跟踪是指新闻专线和广播新闻等来源的新闻数据流中自动地发现话题并把话题相关的内容组织到一起的技术。通过增量的文档聚类的方法,信息流被聚集到有限的话题类簇中,类内高度相似,不同的类间相似度较低,以此进行海量数据的融合。热点舆情话题是话题舆情中受关注度最大,影响也较为突出的舆情,旨在从半结构化海量Web数据中获取相应的主题并进行整合,以新的热点事件分析并了解热点话题事件的发展。热点话题分析对舆情分析具有较大的实际意义,可以及时向网络监控部门提供网民关注焦点,辅助网络舆情分析。因此,及时发现微博热点话题是非常有意义的。

算法步骤

1.流程图
流程图

2.数据预处理

其实,数据预处理的意思就是将文章进行分词处理利用jieba(结巴)分词对文章进行分词处理,并进行词频统计,将其所归属的文章ID一并存到一个数据字典里。这里包括一个重要的过滤步骤即剔除停用词。停用词出现次数最多的词是—-“的”、”是”、”在”—-这一类最常用的词。它们叫做”停用词”(stop words),表示对找到结果毫无帮助、必须过滤掉的词。假设我们把它们都过滤掉了,只考虑剩下的有实际意义的词。我们在实际处理的时候是去下载一个Stopwords.txt的文档进行筛滤。

1 0