聚类(Clustering)理论简介
来源:互联网 发布:网络免费赚钱项目 编辑:程序博客网 时间:2024/06/12 01:32
现实中,人们获得的数据大部分都是未标记(unlabeled data),分类和回归算法不能够处理这些数据,而人工进行标记耗时耗力,也是不可行的。因此,人们处理这些数据的大致步骤是:先采用聚类,将数据划分成若干个簇,再将每个簇(cluster)根据数据的含义定义为一个特定的类,这样相当于给数据进行非人工标记,获得了带标记的数据,这样一来,就可以使用分类和回归算法来训练模型,用于判别新数据(raw data)的类型了。
聚类(clustering)是将数据集D划分成若干互不相交的子集,即’簇’(cluster).通常这个数据集是由无标记(也可以是少部分存在标记)的样本数据构成。它的核心思想是“物以类聚”。怎么“聚”?就是寻找一种合适的距离度量,在结合性能度量来评价,找到更好的且符合要求的聚类结果。
对”簇”的描述中会涉及到一个单词centroid,翻译过来叫做“质心”。每个簇通过其质心(也就是簇中所用点的中心)来描述。离质心越近的数据点,其被分到该簇的可信度越高。
阅读全文
0 0
- 聚类(Clustering)理论简介
- 聚类简介Clustering
- K-Means clustering 简介
- 聚类(4)-- Hierarchical clustering
- 聚类(5)-- Spectral clustering
- 聚类(5)-- Spectral clustering
- Spark MLlib 中power iteration clustering (PIC)算法简介
- Clustering(聚类)
- Clustering聚类
- 聚类(clustering)
- 聚类(1)-- k-means clustering
- 聚类(2)-- Fuzzy k-means clustering
- 聚类(6)-- Affinity Propagation Clustering
- 聚类(1)-- k-means clustering
- 聚类(2)-- Fuzzy k-means clustering
- 数据挖掘-目录-聚类(clustering)
- 单点登录SSO(理论简介)
- Stanford ML - Clustering 聚类
- mybatis-接口式编程(推荐使用此种)-2
- 友盟分享(qq,qzone,微信,朋友圈)
- 写在开通CSDN博客的今天
- 相信java,更相信自己
- android新创建Activity在Manifest文件中注册,如何进行注册
- 聚类(Clustering)理论简介
- bzoj1399 Win
- ASP.NET读取设置Web.config文件--数据库
- 我的shell命令集锦
- Service Providers 服务提供者
- PhotoSwipe 图片浏览,可放大缩小,左右滑动
- 二叉树 链表实现 模板
- Anaconda 打开 ipynb 文件并可设置路径
- 链表实现冒泡排序