聚类与分类的区别？

来源：互联网发布：lm算法编辑：程序博客网时间：2024/05/29 07:28

聚类

有一天老板给你一堆数据，就像是这样的。。。。。

然后他说，你给我分类（聚类）出来，然后拍拍屁股走人了，办公室里留下你孤独的身影。。。

那这种纯属于数据的，一点带标签的影子都没有的有什么用呢？这就要用到聚类了，简单说就是，物以类聚，大伙抱团行动，拿最简单的k-means来说，以‘距离’作为判断规则，就像小时候分校区，你家这块离哪个小学近，就去那个小学上学（现在属于区来选小学了，但这个区也可以用无监督的聚类算法来模拟，这个就跑题了）分完结果是这样的。。。

诶？这个我给的数据明明是三维的，你咋给我拍成二维了，因为我用了二向箔武器啊。。。。。。
不闹
你要三维的，给你便是；

刚才从三维到二维，就是进行了’降维打击‘，为什么要进行降维打击呢，这就牵扯到‘维数爆炸’理论了，又跑题了，，，，反正你知道，现实中的数据，无一例外（绝大多数），特别是高维数据（这里的维就是指特征），都是要经过’降维打击‘后再进行处理的。记住先！
聚类先讲到这---所以说题主的问题得到特征属性这属于聚类
------------------------------------------------------诶?----------------------------------------------------

分类：
老板有一天又和你说，诶？我这有一堆数据，你帮我分类（分类）一下，然后给你一堆数据，他就拍拍屁股走人了，办公室留下你孤独的身影。

然后数据是这样的；

作者：徐凯
链接：https://www.zhihu.com/question/42044303/answer/107836313
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这是一个200维（特征）的数据，具体我不能截图，涉及一些实验室的项目，后面201维它实际是个标签，就是说，第一组数据，它属于第六类，这是明确给定的，同理，第二组数据，它数据第10类，那就刺激了对不对，一组数据，它拥有两百个特征，把它想象成这是6号小怪兽，它拥有两百个特征（皮肤，菱角，眼睛颜色，喷火不。。）然后把这些属性归一化，也就是说，最最明显的，归一化后比较高，最不突出的归一化后接近0，这就好了，每头小怪兽都有200个特征，只是表现的突出不突出而已，，，，然后分类的目的就是，把小怪兽都输入数据库（分类器），然后数据库不断更新完善（分类器迭代），之后奥特曼打小怪兽的时候就可以直接扫一下小怪兽，然后传给数据库，数据库根据已有的数据进行预判咯，你这小怪兽，皮肤0.4，菱角0.01，，，，，应该是属于第几类小怪兽，然后奥特曼就放绝招把，哈哈哈哈。。。。
“严肃点！”
“好”
分类分为有监督，无监督，半监督，分别对应有无标签为-有-无-有一点
有监督就是样本数据给定所有标签，然后去训练分类器，这是能达到最高精度的一种
无监督也就是通常意义上的聚类，只给数据，不给标签
半监督这个厉害了，绝大多数数据不给标签，然后给一小部分数据贴上标签，再送分类器里面，用有监督的方式解决偏聚类问题！给个形象的图就是；

所以日常生活中最多的是半监督分类，比较贴近现实，因为实际生活中，我们获取的数据很多都是未知标签的，然而通过一些渠道我们可以得到一点数据，这就是要用到半监督了，分类算法很多，self-training，主动学习，等等自己看需求。至于题主所说的看商品知道用户群，我个人认为属于分类的一种，应该是半监督分类，用户群是标签，而购买的商品是特征，以上。

最后的最后，题主想要聚类算法，题主你咋不上天呢！！那么多聚类算法我们怎么说的完！！！
不过可以推荐看几本书，数据挖掘导论，数据挖掘概念与技术，这里面的基本都是聚类算法和思想，如果我有什么冒犯的地方，题主你可以过来打我啊，哈哈哈

分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。也就是说，这些类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。
而聚类的理解更简单，就是你压根不知道数据会分为几类，通过聚类分析将数据或者说用户聚合成几个群体，那就是聚类了。聚类不需要对数据进行训练和学习。
分类属于监督学习，聚类属于无监督学习。常见的分类比如决策树分类算法、贝叶斯分类算法等聚类的算法最基本的有系统聚类，K-means均值聚类，这些都很常见，网上资料一大推，不再赘述。

简单地说，分类(Categorization or Classification)就是按照某种标准给对象贴标签(label)，再根据标签来区分归类。简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 区别是，分类是事先定义好类别 ，类别数不变 。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。聚类则没有事先预定的类别，类别数不确定。 聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成 。分类适合类别或分类体系已经确定的场合，比如按照国图分类法分类图书；聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端，比如多文档文摘、搜索引擎结果后聚类(元搜索)等。      分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：(v1,v2,...,vn; c)；其中vi表示字段值，c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。      聚类(clustering)是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。

阅读全文

0 0