K一最邻近算法在文本自动分类中的应用

来源:互联网 发布:20 sim软件下载 编辑:程序博客网 时间:2024/06/06 04:15

           一种常用的基于内容的分类算法-----k--最邻近算法(KNN),利用KNN算法并且结合结合改进的词特征权值计算方法和文本相似度的计算方法完成了文本的自动分类.通过KNN方法分类之后的结果的查准率、查全率得以明显提高.

      传统的分类方法是使用人工对文本进行分类,并加以组织和整理,以方便人们浏览.但是,这种人工分类的做法往往需要具有专业知识的人员才能胜任,而且信息数据量的爆炸性增长也使得传统的人工分类变得不切实际,因此使用计算机进行文本的自动分类成为必然.其中K一最邻近算法(KNN)和SVM是文本自动分类的两种较好的方法.KNN方法是一种非参数化方法,适合于概率密度函数的参数形式未知的场合.

     目前常用的文本自动分类技术有基于统计学的分类技术,包括贝叶斯法、K一邻近算法等;基于机器学习的分类技术,包括决策树和规则归纳法等;基于神经网络的分类技术,包括BP算法等.

     文本自动分类通常由如下几步完成:①文本信息的预处理,主要是针对文本的分词处理;②计算文本的特征向量,根据文中每个词在文本中的不同权重,生产文本的特征向量;③建立训练语料库,通过聚类处理和人工干预等方法建立训练语料库;④分类处理,计算待分类文档与每个训练文本之间的相似度,确定文本所属的类别;⑤对分类结果进行评价.评估文本自动分类优劣指标主要有两种:查准率和查全率.查准率是所有判断的文本中与人工分类结果吻合的文本所占的比率(查准率=分类的正确文本数÷实际分类的文本数).查全率是人工分类结果应有的文本中与分类系统吻合的文本所占的比率(查全率=分类的正确文本数÷应有的文本数).查准率和查全率反映了分类质量的两个不同方面,两者应该综合考虑,不可偏废.因此,存在一种新的评估指标F1测试值(F1测试值=查准率X查全率×2÷(查准率+查全率)).

     K一最邻近算法是一种基于向量空间模型的文档分类方法:(1)对于一个测试文本,计算它与训练样本集中每个文本的文本相似度,根据文本相似度找出K个最相似的训练文本.(2)然后通过判断这K个训练文本的类别权值,得出测试文本所属的类别.

0 0