聚类

来源：互联网发布：python ftp 传输模式编辑：程序博客网时间：2024/05/23 14:08

1、在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记的训练样本来揭示数据的内在性质和规律，
其中密度估计和异常检测都是无监督学习任务。

2、聚类是将样本中的数据集划分成不相交的子集，每个子集是一个簇。

3、聚类的两个基本问题：性能度量和距离计算。
Jaccard系数，FM系数，Rand指数，结果都在（0,1）之间，越大越好。

4、距离计算衡量标准：西瓜书P199
簇内平均距离
簇内样本之间最大距离
簇内最近样本见距离
两个不同簇中心点之间的距离
5、聚类性能度量内部指标：
DBI指数：簇内平均距离的和与不同簇中心点间的距离的比值，值越小越好。
DI指数：簇见最近的样本距离与簇内样本最大的距离的比值，值越大越好。

6.闵可夫斯基距离又称Lp范数，当p为2时，即欧氏距离，当p=1时为曼哈顿距离

7.原型聚类：
原型，即样本空间中具有代表性的点。
通常对原型进行初始化，然后对原型进行迭代更新求解，不同的原型表示，不同的求解方式，会产生不同额算法。
常用的原型聚类算法：
—–k均值算法：最简单的聚类方法
1，先从样本中随机选取k个作为初始均值向量。
2、计算各个样本与各个均值之间的距离，将样本归为最小距离均值向量所在的簇中。
3、从划分好的簇中，再次计算各个簇的新的均值向量。不断重复，迭代结果相同后，则算法停止。得到最终的划分。
学习向量量化 西瓜书P206例子比较好理解
在原型中初始化一组原型向量{p1,p2,p3,..pq}
repeat:
从样本集中随机选取样本（Xi,Yj）其中，Xi是样本值，Yj是样本标记
2、计算样本Xi与各个原型向量之间的距离，用欧式距离来计算即二阶范数计算。
3、找到与Xi最近的原型向量Pi，如果Xi与Pi的标记相同，则按照下式更新原型向量Pi为P’
P’=Pi+学习率（一塔）*（Xi-Pi）
如果标记不同，则更新Pi的公式为：
P’=Pi-学习率（一塔）*（Xi-Pi）
直到原型向量更新很小甚至不再更新的时候，则将当前原型向量作为最终结果返回。

高斯混合聚类
与前两种原型聚类不同，高斯混合聚类采用的是概率模型来表达聚类原型。

阅读全文

0 0