机器学习算法-聚类(一、性能度量和距离计算)
来源:互联网 发布:网络大神作家经典作品 编辑:程序博客网 时间:2024/06/05 07:53
最近正式进入到机器学习的理论学习中啦,准备写一些笔记来加深我对机器学习算法的理解~
所谓聚类在我的理解中是:
将数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇:
它可用于寻找数据内在的分布结构,也可作为其它学习任务的前驱过程,来提炼数据
以下是聚类算法涉及的两个基本问题:
性能度量和距离计算:
聚类是将样本划分为若干互不相交的子集(样本簇),当然我们希望是簇内相似度高,簇间相似度底
此时需要性能度量: 一般分两类:
一、使用外部指标:
将聚类结果与某个参考模型作比较
给定参考簇划分C*,对数据集D,通过聚类得到的簇划分为C
λ 与 λ∗分别表示C和C*对应的簇标记向量。
通过C和C*的比较,得出相应的参数,再使用公式进行性能度量
二、使用内部指标:
直接对聚类结果进行分析,不进行参考
主要是利用样本点之间的距离来进行度量
DB是用来衡量样本簇各自内部点的聚合度与样本簇之间的聚合度的大小,显然,内部是越小越好,样本簇之间是越大越好
Dunn则是比较样本簇之间最小距离和样本簇之间最大距离,主要是样本簇之间进行比较显然,样本簇之间最小距离越大,最大距离越小说明样本簇内部聚合度越高,样本簇之间的距离越远
距离计算,应该是聚类的核心之一,距离的计算基本上是样本点与样本点之间距离的计算,通过利用得到的距离,可以判断该点的大致类别
这用来计算样本点中的有序属性比较方便;
但现实生活中还有(交通工具:火车,汽车,飞机)这样的无序属性,此时采用VDM距离:
令Mu,a表示在属性u上取值为a的样本数,Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:
无序属性就是通过计算样本簇中在属性u上样本点的多少来得到该样本簇在该属性上的“距离”
在不少现实任务中,我们需要基于数据样本来确定合适的距离计算式,如果有兴趣可以学习 “距离度量学”
最后盖个章~
Shiloh的读书笔记~
- 机器学习算法-聚类(一、性能度量和距离计算)
- 【机器学习-西瓜书】九、聚类:性能度量;距离计算
- 系统学习机器学习之距离的度量(一)--常见距离
- 机器学习: 性能度量
- 机器学习之&&距离和相似度度量
- 机器学习之距离和相似性度量方法
- 机器学习中的距离和相似性度量方法
- 漫谈机器学习中的距离和相似性度量方法
- 机器学习中常用的距离和相似性度量方法
- 机器学习笔记(六)性能度量
- 机器学习:算法性能度量之查准率与查全率
- 机器学习笔记 - 性能度量
- 机器学习之性能度量
- 机器学习模型性能度量
- 机器学习模型性能度量
- 机器学习距离计算
- 机器学习中的各种相似性、距离度量
- 机器学习----降维与度量学习(等度量映射和度量学习)
- SetWindowsHookEx 函数,暂时没有深入研究
- hihoCoder 1584 Bounce 【数学规律】 (ACM-ICPC国际大学生程序设计竞赛北京赛区(2017)网络赛)
- 区间平均值(逆序对)
- ImportError: cannot import name 'downsample'
- Java中toString方法和String.valueOf方法使用
- 机器学习算法-聚类(一、性能度量和距离计算)
- 【译文】构建一个图书推荐系统 – 基础知识、knn算法和矩阵分解
- hdoj-1045 Fire Net
- Java知识--基本数据类型
- JS版]基于百度地图的 Overlay 扩展,仿Q房网实现自定义覆盖物
- Spring4中的@Value的使用(学习笔记)
- Codeforces 1A. Theatre Square
- softmax层的实现
- 课后习题page100.pp.3.2