文件分类算法-----KNN、决策树、支持向量机、K-mean(非文件分类算法)

来源：互联网发布：网络管理及其功能编辑：程序博客网时间：2024/06/17 12:22

分类：

1.积极学习：在给定的训练元组之后、接受到测试元组之前就构造好分类模型。

           算法：贝叶斯、基于规则的分类（决策树）、向后传播分类、SVM（支持向量机）、基于关联规则挖掘的分类

2.消极学习：推迟建模，当给定训练元组时，简单的存储训练数据或简单处理，一直等到给定一个测试元组，再建立分类模型。

           算法：邻近算法

KNN(K-Nearest Neighbors Alorithms)：邻近算法，计算一个点A与其他所有点之间的距离，取出与该点最近的K个点，然后统计这K个点里面所属分类比例最大的，则点A属于该分类

参考文献：http://wenku.baidu.com/link?url=T0NyamxxQ2IYtqwRc3-anrF89FlygVLrp9PaZR6-Y5jvCGh9nKEYbRLx0KaC0zMPfMtYOSl7cUFKl77jKbsmyfpuxHJ5liosS6Q0jpzuKZm

决策树：一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。

参考文献：http://baike.baidu.com/link?url=exqjgGB1fwMgMQlgo8hjTwYCAK0Liw-FsSCcjU2bRnylTuD_BwBE_bA_545niLMgE3EaYOBmetmF9ZUbxgEYz_

支持向量机(SVM)：解决小样本、非线性及高维模式识别。基于统计学，以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即SVM是基于结构风险最小化准则的学习方法。SVM的解是全局唯一的最优解。其实就是使用超平面将不同类别分开，如果是线性的就直接只用超平面，如果是非线性的就转化为多维来处理，也就是多个线性，最后实现最优分类面(由多维超平面组成)

参考文献：http://wenku.baidu.com/view/aef47518964bcf84b9d57bbf.html?re=view

                    http://www.chinakdd.com/article-W82k0g2822JE712.html

Kmean：很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

参考文献：http://baike.baidu.com/link?url=9ntDoVsY4xQz-c_7crAQj_vSPCFQF62p1cdsGS_AQ1tTOAlO5qJ6NZqj6bj1388cgETkALcgI_rHK_mfShs5XK

0 0