机器学习笔记-分类和聚类基本概念

来源：互联网发布：python教程视频教程编辑：程序博客网时间：2024/06/05 12:46

参考知乎回答

分类

分类是数据挖掘中的一项非常重要的任务，利用分类技术可以从数据集中提取描述数据类的一个函数或模型（也常称为分类器），并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点，分类技术是一种有指导的学习，即每个训练样本的数据对象已经有类标识，通过学习可以形成表达数据对象与类标识间对应的知识。

分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。

分类分为有监督，无监督，半监督，分别对应有无标签为-有-无-有一点有监督就是样本数据给定所有标签，然后去训练分类器，这是能达到最高精度的一种无监督也就是通常意义上的聚类，只给数据，不给标签半监督这个厉害了，绝大多数数据不给标签，然后给一小部分数据贴上标签，再送分类器里面，用有监督的方式解决偏聚类问题！

所以日常生活中最多的是半监督分类，比较贴近现实，因为实际生活中，我们获取的数据很多都是未知标签的，然而通过一些渠道我们可以得到一点数据，这就是要用到半监督了，分类算法很多，self-training，主动学习，等等自己看需求。

聚类

在机器学习中，聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。

聚类的意义就在于将观察到的内容组织成类分层结构，把类似的事物组织在一起。通过聚类，人们能够识别密集的和稀疏的区域，因而发现全局的分布模式，以及数据属性之间的有趣的关系。

常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

数据降维

刚才从三维到二维，就是进行了’降维打击‘，为什么要进行降维打击呢，这就牵扯到‘维数爆炸’理论了，又跑题了，，，，反正你知道，现实中的数据，无一例外（绝大多数），特别是高维数据（这里的维就是指特征），都是要经过’降维打击‘后再进行处理的。

阅读全文

0 0