分类与聚类的区别

来源:互联网 发布:万方数据库下载器 编辑:程序博客网 时间:2024/05/29 08:54

分类与聚类的区别

Classification (分类)—— Supervised Learning (监督学习)


1.定义

利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器classifier),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是监督学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。所谓分类,简单来说,就是根据数据的特征或属性,划分到已有的类别中

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

2.常用的分类算法包括

决策树分类法
基于规则的分类器
朴素的贝叶斯分类算法(native Bayesian classifier)
基于支持向量机(SVM)的分类器
神经网络法
k-最近邻法(k-nearest neighbor,kNN)
模糊分类法

Clustering(聚类)——Unsupervised Learning (无监督学习)


1.定义

简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们的目标只是把相似的东西聚到一起。聚类分析就是将数据划分成有意义或有用的组(簇)。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,即unsupervised learning (无监督学习)。聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。

2.什么是一个好的聚类方法?

一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性、低的簇间相似性
聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;
聚类方法的好坏还取决于该方法是否能发现某些还是所有的隐含模式;

3.不同的聚类类型

划分聚类(Partitional Clustering):划分聚类简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集。
层次聚类(Hierarchical Clustering):层次聚类是嵌套簇的集族,组织成一棵树。
互斥聚类(Exclusive Clustering):每个对象都指派到单个簇。
重叠的(Overlapping)或非互斥的(Non-exclusive)聚类:聚类用来反映一个对象.同时属于多个组(类)这一事实。例如:在大学里,一个人可能既是学生,又是雇员
模糊聚类(Fuzzy Clustering):每个对象以一个0(绝对不属于)和1(绝对属于)之间的隶属权值属于每个簇。换言之,簇被视为模糊集。
完全聚类(Complete Clustering):完全聚类将每个对象指派到一个簇。
部分聚类(Partial Clustering):部分聚类中数据集某些对象可能不属于明确定义的组。如:一些对象可能是离群点、噪声。

4.不同的簇类型

明显分离的(Well-Separated):每个点到同簇中任一点的距离比到不同簇中所有点的距离更近。
基于原型的:每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近。对于具有连续属性的数据,簇的原型通常是质心,即簇中所有点的平均值。当质心没有意义时,原型通常是中心点,即簇中最有代表性的点。基于中心的(Center-Based)的簇:每个点到其簇中心的距离比到任何其他簇中心的距离更近。
基于图的:如果数据用图表示,其中节点是对象,而边代表对象之间的联系。簇可以定义为连通分支(Connected Component):互相连通但不与组外对象连通的对象组。基于近邻的(Contiguity-Based)簇:其中两个对象是相连的,仅当它们的距离在指定的范围内。这意味着,每个对象到该簇某个对象的距离比到不同簇中任意点的距离更近。
基于密度的(Density-Based):簇是对象的稠密区域,被低密度的区域环绕。
(共同性质的)概念簇(Conceptual Clusters):可以把簇定义为有某种共同性质的对象的集合。此情况下,聚类算法都需要非常具体的簇概念来成功检测这些簇,发现这些簇的过程称作概念聚类。然而,过于复杂的簇概念将涉及模式识别。

References:
[1] http://www.cnblogs.com/batys/p/3274138.html