KNN分类算法及其改进

来源:互联网 发布:类似维棠的软件 mac 编辑:程序博客网 时间:2024/06/06 02:15

        一般有两种方法计算相似度:(1)欧氏距离,两个标准化的文本向量a,b之间的欧氏距离为:                                                                                                                                                                                    (2)余弦距离,计算两个向量的余弦夹角:                                                                                          该分类算法的基本思路是:在给定新文本后,考虑在训练文本集中与该测试文本距离最近(最相似)的k篇文本,根据这k篇文本所属的类别判定测试文本所属的类别。                                                                                                                       由于使用kNN算法进行分类的过程中,要计算测试文本与每个训练文本的相似度,这样无疑大大增加了分类的计算量,分类的速度无法提高,因此,在训练文本较多的情况下,如何减小计算量,提高分类速度是个关键性问题。

       因此,本文提出基于特征项减少的改进的kNN算法,其思想是在kN N算法中融入传统的特征向量的比较方法,先找出两个原始特征向量之间相同的词及其权重,按照相同特征词的顺序重新构造两个特征词都相同的特征向量,再利用特征词对应的权重向量来计算这两个特征向量之间的相似度。


       本文叙述了文本分类的一般过程及在文本分类过程中几个关键性问题,提出了基于特征向量减少的改进kNN算法.该算法针对传统算法中在训练文本较多的情况下,计算测试文本与每个训练文本的相似度增加了分类的计算量、使分类的速度无法提高的缺点,一方面在特征提取时降低特征向量的维数,另一方面在kN N算法中融入传统的特征向量的比较方法,先找出两个原始特征向量之间相同的词及其权重,按照相同特征词的顺序重新构造两个特征词都相同的特征向量,再利用特征词对应的权重向量来计算这两个特征向量之间的相似度.改进的kNN算法在基本不损失准确率的基础上召回率和分类效率都有明显提高。

0 0
原创粉丝点击