数据挖掘中的分类和聚类的区别

来源：互联网发布：功夫英语知乎编辑：程序博客网时间：2024/05/01 20:22

转自：http://fpcheng.blog.51cto.com/2549627/778119

在数据挖掘技术中分类和聚类很容易让人混淆。分类和聚类是有区别的，下面是我整理的有关数据挖掘中分类和聚类的资料。

1.分类

分类是数据挖掘中的一项非常重要的任务，利用分类技术可以从数据集中提取描述数据类的一个函数或模型（也常称为分类器），并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点，分类技术是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。从这个意义上说，数据挖掘的目标就是根据样本数据形成的类知识并对源数据进行分类，进而也可以预测未来数据的归类。分类具有广泛的应用，例如医疗诊断、信用卡的信用分级、图像模式识别。

分类挖掘所获的分类模型可以采用多种形式加以描述输出。其中主要的表示方法有：分类规则、决策树、数学公式和神经网络。另外，最近又兴起了一种新的方法—粗糙集，其知识表示采用产生式规则。

2.聚类

与分类技术不同，在机器学习中，聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差别尽可能的小，而不同类别上的对象的差别尽可能的大。因此，聚类的意义就在于将观察到的内容组织成类分层结构，把类似的事物组织在一起。通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的关系。

数据聚类分析是一个正在蓬勃发展的领域。聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有代表性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦距离、明考斯基距离等。聚类分析广泛应用于商业、生物、地理、网络服务等多种领域。

0 0