利用cos 文本自动分类

来源:互联网 发布:淘宝店经验 编辑:程序博客网 时间:2024/06/06 00:06

利用cos 文本自动分类

文本处理:    1.找到一个词汇表,将该词汇表进行编码(1,2,3,4....)    2.把该词汇表变为一个二维矩阵    3.将文章分词后在二维矩阵中填入对应的词(有多少个词就在该词对应的编码处填多少)    <需要建立两个矩阵,因为后面要计算两篇文章的相似度>

计算原理:      不同的词在不同类型上的文章出现的次数会不同,股票,涨停,基金,黄金,货币这些词会出现在与金融有关的文章上,而 自然,风景,景色,太阳,花。就会很少出现。      如果两个文章属于同一类的话,他们的特征向量会在某几个维度上比较大。所以,cos在文本分类处理才能够实现  而 cos 正是计算两个向量的距离(相似度)

计算公式:

cos公式

进行分类:  采用由下而上的方法进行文章的分类,把相似性在一个阈值的分为一类,而阈值逐渐增大。  阈值的选取尤为关键,如果阈值太大文章中的相关性就减少了,这是就可以停止阈值的选取。

算法优化  1.利用上述公式计算时,你会发现每一个文章的内积是不变的。即:分母的一部分是不变的,所以只用计算一次后便可以把它存储起来  2.在两篇文章中,同时没有出现的词汇可以从他们各自的矩阵中删去。只考虑非零元素即可。  3.简化虚词,我有一篇博客曾写过ite-if算法。曾提到,文章中的虚词会影响两篇文章主题的相似性。    所以删除虚词后不仅可以优化计算速度,而且对文章的分类有更好的帮助作用  4.位置加权。    出现在标题中的词往往会比出现在正文中的主题更加重要。而正文中的第一段和最后一段在正文重要程度也不同。所以对 标题 第一段 最后一段 进行加权可以提高文本分类的准确性
原创粉丝点击