聚类与分类的区别?

来源:互联网 发布:lm算法 编辑:程序博客网 时间:2024/05/29 07:28
聚类

有一天老板给你一堆数据,就像是这样的。。。。。

然后他说,你给我分类(聚类)出来,然后拍拍屁股走人了,办公室里留下你孤独的身影。。。

那这种纯属于数据的,一点带标签的影子都没有的有什么用呢?这就要用到聚类了,简单说就是,物以类聚,大伙抱团行动,拿最简单的k-means来说,以‘距离’作为判断规则,就像小时候分校区,你家这块离哪个小学近,就去那个小学上学(现在属于区来选小学了,但这个区也可以用无监督的聚类算法来模拟,这个就跑题了)分完结果是这样的。。。




诶?这个我给的数据明明是三维的,你咋给我拍成二维了,因为我用了二向箔武器啊。。。。。。
不闹
你要三维的,给你便是;

刚才从三维到二维,就是进行了’降维打击‘,为什么要进行降维打击呢,这就牵扯到‘维数爆炸’理论了,又跑题了,,,,反正你知道,现实中的数据,无一例外(绝大多数),特别是高维数据(这里的维就是指特征),都是要经过’降维打击‘后再进行处理的。记住先!
聚类先讲到这---所以说题主的问题得到特征属性这属于聚类
------------------------------------------------------诶?----------------------------------------------------

分类:
老板有一天又和你说,诶?我这有一堆数据,你帮我分类(分类)一下,然后给你一堆数据,他就拍拍屁股走人了,办公室留下你孤独的身影。

然后数据是这样的;

作者:徐凯
链接:https://www.zhihu.com/question/42044303/answer/107836313
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

这是一个200维(特征)的数据,具体我不能截图,涉及一些实验室的项目,后面201维它实际是个标签,就是说,第一组数据,它属于第六类,这是明确给定的,同理,第二组数据,它数据第10类,那就刺激了对不对,一组数据,它拥有两百个特征,把它想象成这是6号小怪兽,它拥有两百个特征(皮肤,菱角,眼睛颜色,喷火不。。)然后把这些属性归一化,也就是说,最最明显的,归一化后比较高,最不突出的归一化后接近0,这就好了,每头小怪兽都有200个特征,只是表现的突出不突出而已,,,,然后分类的目的就是,把小怪兽都输入数据库(分类器),然后数据库不断更新完善(分类器迭代),之后奥特曼打小怪兽的时候就可以直接扫一下小怪兽,然后传给数据库,数据库根据已有的数据进行预判咯,你这小怪兽,皮肤0.4,菱角0.01,,,,,应该是属于第几类小怪兽,然后奥特曼就放绝招把,哈哈哈哈。。。。
“严肃点!”
“好”
分类分为有监督,无监督,半监督,分别对应有无标签为-有-无-有一点
有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种
无监督也就是通常意义上的聚类,只给数据,不给标签
半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!给个形象的图就是;

所以日常生活中最多的是半监督分类,比较贴近现实,因为实际生活中,我们获取的数据很多都是未知标签的,然而通过一些渠道我们可以得到一点数据,这就是要用到半监督了,分类算法很多,self-training,主动学习,等等自己看需求。至于题主所说的看商品知道用户群,我个人认为属于分类的一种,应该是半监督分类,用户群是标签,而购买的商品是特征,以上。

最后的最后,题主想要聚类算法,题主你咋不上天呢!!那么多聚类算法我们怎么说的完!!!
不过可以推荐看几本书,数据挖掘导论,数据挖掘概念与技术,这里面的基本都是聚类算法和思想,如果我有什么冒犯的地方,题主你可以过来打我啊,哈哈哈


分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。
而聚类的理解更简单,就是你压根不知道数据会分为几类,通过聚类分析将数据或者说用户聚合成几个群体,那就是聚类了。聚类不需要对数据进行训练和学习。
分类属于监督学习,聚类属于无监督学习。常见的分类比如决策树分类算法、贝叶斯分类算法等聚类的算法最基本的有系统聚类,K-means均值聚类,这些都很常见,网上资料一大推,不再赘述。


简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。      分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。 要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn; c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。      聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展,涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域,聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、 BIRCH、CLIQUE、DBSCAN等。

原创粉丝点击