利用cos 文本自动分类

来源：互联网发布：淘宝店经验编辑：程序博客网时间：2024/06/06 00:06

利用cos 文本自动分类

文本处理：    1.找到一个词汇表，将该词汇表进行编码（1,2,3,4....）    2.把该词汇表变为一个二维矩阵    3.将文章分词后在二维矩阵中填入对应的词（有多少个词就在该词对应的编码处填多少）    <需要建立两个矩阵，因为后面要计算两篇文章的相似度>

计算原理：      不同的词在不同类型上的文章出现的次数会不同，股票，涨停，基金，黄金，货币这些词会出现在与金融有关的文章上，而 自然，风景，景色，太阳，花。就会很少出现。      如果两个文章属于同一类的话，他们的特征向量会在某几个维度上比较大。所以，cos在文本分类处理才能够实现  而 cos 正是计算两个向量的距离（相似度）

计算公式：

cos公式

进行分类：  采用由下而上的方法进行文章的分类，把相似性在一个阈值的分为一类，而阈值逐渐增大。  阈值的选取尤为关键，如果阈值太大文章中的相关性就减少了，这是就可以停止阈值的选取。

算法优化  1.利用上述公式计算时，你会发现每一个文章的内积是不变的。即：分母的一部分是不变的，所以只用计算一次后便可以把它存储起来  2.在两篇文章中，同时没有出现的词汇可以从他们各自的矩阵中删去。只考虑非零元素即可。  3.简化虚词，我有一篇博客曾写过ite-if算法。曾提到，文章中的虚词会影响两篇文章主题的相似性。    所以删除虚词后不仅可以优化计算速度，而且对文章的分类有更好的帮助作用  4.位置加权。    出现在标题中的词往往会比出现在正文中的主题更加重要。而正文中的第一段和最后一段在正文重要程度也不同。所以对 标题 第一段 最后一段 进行加权可以提高文本分类的准确性

阅读全文

1 0