聚类

来源:互联网 发布:python ftp 传输模式 编辑:程序博客网 时间:2024/05/23 14:08

1、在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记的训练样本来揭示数据的内在性质和规律,
其中密度估计和异常检测都是无监督学习任务。

2、聚类是将样本中的数据集划分成不相交的子集,每个子集是一个簇。

3、聚类的两个基本问题:性能度量和距离计算。
Jaccard系数,FM系数,Rand指数,结果都在(0,1)之间,越大越好。

4、距离计算衡量标准:西瓜书P199
簇内平均距离
簇内样本之间最大距离
簇内最近样本见距离
两个不同簇中心点之间的距离
5、聚类性能度量内部指标:
DBI指数:簇内平均距离的和与不同簇中心点间的距离的比值,值越小越好。
DI指数:簇见最近的样本距离与簇内样本最大的距离的比值,值越大越好。

6.闵可夫斯基距离又称Lp范数,当p为2时,即欧氏距离,当p=1时为曼哈顿距离

7.原型聚类:
原型,即样本空间中具有代表性的点。
通常对原型进行初始化,然后对原型进行迭代更新求解,不同的原型表示,不同的求解方式,会产生不同额算法。
常用的原型聚类算法:
—–k均值算法:最简单的聚类方法
1,先从样本中随机选取k个作为初始均值向量。
2、计算各个样本与各个均值之间的距离,将样本归为最小距离均值向量所在的簇中。
3、从划分好的簇中,再次计算各个簇的新的均值向量。不断重复,迭代结果相同后,则算法停止。得到最终的划分。
学习向量量化 西瓜书P206例子比较好理解
在原型中初始化一组原型向量{p1,p2,p3,..pq}
repeat:
从样本集中随机选取样本(Xi,Yj) 其中,Xi是样本值,Yj是样本标记
2、计算样本Xi与各个原型向量之间的距离,用欧式距离来计算即二阶范数计算。
3、找到与Xi最近的原型向量Pi,如果Xi与Pi的标记相同,则按照下式更新原型向量Pi为P’
P’=Pi+学习率(一塔)*(Xi-Pi)
如果标记不同,则更新Pi的公式为:
P’=Pi-学习率(一塔)*(Xi-Pi)
直到原型向量更新很小甚至不再更新的时候,则将当前原型向量作为最终结果返回。

高斯混合聚类
与前两种原型聚类不同,高斯混合聚类采用的是概率模型来表达聚类原型。