聚类 - 1 - 聚类介绍

来源:互联网 发布:2选1数据选择器原理图 编辑:程序博客网 时间:2024/05/21 22:11

         本总结是是个人为防止遗忘而作,不得转载和商用。

 

         很多算法,比如“线性回归、Logistics/softmax回归、SVM”等都是给出了样本xi和样本的类别yi,但是如果只给出样本xi,但是没有给出该样本的类别呢?聚类就是处理这类问题的,它的原理就是根据某种方式的相似性,把一些样本做一个归类。

         PS:聚类是无监督的学习方式,刚才提到的线性回归、Logistics/softmax回归、SVM是有监督的学习方式。

         如果用矩阵说明的话就是:将m*n这么一个矩阵降维成m*k的矩阵,k<n,所以你直接说矩阵就是降维也可以。

聚类的定义

         聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使

类别内的数据相似度较大而类别间的数据相似度较小。

         聚类是个非常典型的无监督学习。

相似度/距离计算方法总结

         既然聚类思路的核心是度量样本间的内在相似性,那相似度/距离的计算方法是什么呢?

         首先先给出个汇总图,然后在解释,汇总图如下:

         解释:

                   闵可夫斯基距离/欧氏距离:

                            对于两个点(x1,y1),(x2,y2),他们的距离是((x2-x1)2 + (y2-y1)2)1/2

                            为了拓展为n维,就定义向量x=(x1,y1, z1, ...),不过为了方便举例就用3维来说明吧:

                                     两个三维的点x=(x1,x2, x3),y=(y1, y2, y3)

                            于是它们的距离就是((x1-y1)2+ (x2-y2)2 + (x3-y3)2)1/2

                            PS:这就是二范式||x -y||2 ,即:里面都是平方,外面都是平方根。

                            那如果里面都是3次方,外面是3次方根呢?或者里面都是p次方,外面是p次方根呢?也可以吧,反正就是度量度量两点间的距离。

                            于是把上面的汇总下就是:闵可夫斯基距离/欧氏距离的公式。

                            PS:如果p=2时是欧氏距离,p为某一个值时是闵可夫斯基距离,p为∞时是切比雪夫距离。

                  杰卡德相似系数:

                            有时有这样的情况:A和B是两个集合。

                            比如:A喜欢看某些电影,B喜欢看某些电影。我们想度量A和B之间的相似度。

                            这时就用杰卡德相似系数了。

                            推荐系统可考虑选择这个。

                   余弦相似度:

                            如下图所示:

                           

                            有些时候会用A和B之间张成的的角的大小来度量两者的相似性

                            文本相似度可考虑选择这个。

                   Pearson相似系数:

                            就是求两个随机变量的相关系数,即:协方差除上标准差。

                            因为相关系数的绝对值小于等于1,cov(X, Y)可以认为是标准化的协方差,而协方差又是线性关系的一种度量。所以这个可以度量两者的相似性。

                   相对熵(K||L距离/散度):

                            这个在最大熵模型中已经解释了,不懂的看我的总结。

                   Hellinger距离:

                            令α= 0的话,就有下面的推导

                           

                            令α= ±1时,这个就是K-L散度。

 

         余弦相似度与Pearson相似系数:

                   首先,余弦相似度可以做如下变换:

                           

                   这时,如果令Pearson中的μx和μy都等于0的话,那Pearson相似系数的公式就是余弦相似度的公式。

                   所以Pearson相关系数即将x、y坐标向量各自平移到原点后的夹角余弦!

                   这即解释了为何文档间求距离使用夹角余弦——因为这一物理量表征了文档去均值化后的随机向量间相关系数。

 

         最后:

                   在实际应用中,根据情况选择一种距离求出后,对距离取分之一,就是相似度,即:距离和相似度互为倒数

聚类的基本思想

         给定一个有N个对象的数据集,构造数据的k个簇,k≤n。满足下列条件:

                   每一个簇至少包含一个对象

                   每一个对象属于且仅属于一个簇

                   将满足上述条件的k个簇称作一个合理划分

        

         基本思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属

关系,使得每一次改进之后的划分方案都较前一次好。

         有了这个思想后就立马得到了的K-means算法,K-means算法的总结见下一篇。

0 0
原创粉丝点击