文本分类KNN算法
来源:互联网 发布:条码打印软件label 编辑:程序博客网 时间:2024/05/16 01:25
文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。
该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。
该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。
k近邻分类器具有良好的文本分类效果,对仿真实验结果的统计分析表明:作为文本分类器,k近邻仅次于支持向量机,明显优于线性最小二乘拟合、朴素贝叶斯和神经网络。
重点:
1:特征降维(一般用CHI方法)
2:截尾算法(三种截尾算法)
3:降低计算量
- 文本分类KNN算法
- 文本分类中KNN算法
- 基于KNN算法的文本分类研究
- 文本分类——KNN算法
- 文本分类之KNN
- 文本分类算法之--KNN算法的简介
- 采用Weka中的KNN算法进行文本分类
- 【python 编程】文本分类KNN算法实现及结果输出
- 菜鸟进阶: C++实现KNN文本分类算法
- kNN文本分类器实现
- KNN针对中文文本分类
- KNN分类算法
- 分类算法-----KNN
- KNN分类算法详解
- 分类算法之KNN
- 分类算法:kNN
- KNN & NaiveBayes 分类算法
- 分类算法:kNN
- Reflector for .NET 下载问题
- MFC的资源切换AFX_MANAGE_STATE(AfxGetStaticModuleState())
- 黑莓手机的一些小技巧
- [经济法]第二章 经济法的概念、本质与基本原则
- 想法1
- 文本分类KNN算法
- Repeater control checkbox checked event
- .net按钮失效的解决办法
- 获得网卡地址
- 超强的指针 *一辈子都找不到的牛B贴
- Red Hat Linux 9 下安装 Oracle9i(9.2.0.4.0)
- postgresql易出的错误及解决
- 上传文件
- Struts,MVC 的一种开放源码实现