聚类 - 1 - 聚类介绍

来源：互联网发布：2选1数据选择器原理图编辑：程序博客网时间：2024/05/21 22:11

本总结是是个人为防止遗忘而作，不得转载和商用。

很多算法，比如“线性回归、Logistics/softmax回归、SVM”等都是给出了样本xi和样本的类别yi，但是如果只给出样本xi，但是没有给出该样本的类别呢？聚类就是处理这类问题的，它的原理就是根据某种方式的相似性，把一些样本做一个归类。

PS：聚类是无监督的学习方式，刚才提到的线性回归、Logistics/softmax回归、SVM是有监督的学习方式。

如果用矩阵说明的话就是：将m*n这么一个矩阵降维成m*k的矩阵，k<n，所以你直接说矩阵就是降维也可以。

聚类的定义

聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使

类别内的数据相似度较大而类别间的数据相似度较小。

聚类是个非常典型的无监督学习。

相似度/距离计算方法总结

既然聚类思路的核心是度量样本间的内在相似性，那相似度/距离的计算方法是什么呢？

首先先给出个汇总图，然后在解释，汇总图如下：

解释：

闵可夫斯基距离/欧氏距离：

对于两个点(x1,y1)，(x2,y2)，他们的距离是((x2-x1)² + (y2-y1)²)^1/2

为了拓展为n维，就定义向量x=(x1,y1, z1, ...)，不过为了方便举例就用3维来说明吧：

两个三维的点x=(x1,x2, x3)，y=(y1, y2, y3)

于是它们的距离就是((x1-y1)²+ (x2-y2)² + (x3-y3)²)^1/2

PS：这就是二范式||x -y||₂ ，即：里面都是平方，外面都是平方根。

那如果里面都是3次方，外面是3次方根呢？或者里面都是p次方，外面是p次方根呢？也可以吧，反正就是度量度量两点间的距离。

于是把上面的汇总下就是：闵可夫斯基距离/欧氏距离的公式。

PS：如果p=2时是欧氏距离，p为某一个值时是闵可夫斯基距离，p为∞时是切比雪夫距离。

杰卡德相似系数：

有时有这样的情况：A和B是两个集合。

比如：A喜欢看某些电影，B喜欢看某些电影。我们想度量A和B之间的相似度。

这时就用杰卡德相似系数了。

推荐系统可考虑选择这个。

余弦相似度：

如下图所示：

有些时候会用A和B之间张成的的角的大小来度量两者的相似性

文本相似度可考虑选择这个。

Pearson相似系数：

就是求两个随机变量的相关系数，即：协方差除上标准差。

因为相关系数的绝对值小于等于1，cov(X, Y)可以认为是标准化的协方差，而协方差又是线性关系的一种度量。所以这个可以度量两者的相似性。

相对熵(K||L距离/散度)：

这个在最大熵模型中已经解释了，不懂的看我的总结。

Hellinger距离：

令α= 0的话，就有下面的推导

令α= ±1时，这个就是K-L散度。

余弦相似度与Pearson相似系数：

首先，余弦相似度可以做如下变换：

这时，如果令Pearson中的μx和μy都等于0的话，那Pearson相似系数的公式就是余弦相似度的公式。

所以Pearson相关系数即将x、y坐标向量各自平移到原点后的夹角余弦！

这即解释了为何文档间求距离使用夹角余弦——因为这一物理量表征了文档去均值化后的随机向量间相关系数。

最后：

在实际应用中，根据情况选择一种距离求出后，对距离取分之一，就是相似度，即：距离和相似度互为倒数。

聚类的基本思想

给定一个有N个对象的数据集，构造数据的k个簇，k≤n。满足下列条件：

每一个簇至少包含一个对象

每一个对象属于且仅属于一个簇

将满足上述条件的k个簇称作一个合理划分

基本思想：对于给定的类别数目k，首先给出初始划分，通过迭代改变样本和簇的隶属

关系，使得每一次改进之后的划分方案都较前一次好。

有了这个思想后就立马得到了的K-means算法，K-means算法的总结见下一篇。

0 0