K-Means原理分析以及其变种算法

来源:互联网 发布:excel显示无法粘贴数据 编辑:程序博客网 时间:2024/05/20 16:01

从K-Means到elkan K-Means,再到Mini Batch K-Means
K-Means是最普通的聚类方法,应用面比较广。
elkan K-Means是K-Mean算法的变种,用于简化计算:
elkan K-Means原理:
规律1.对于一个样本点X和两个质心O1和O2,如果我们预先计算出来了两个质心之间的距离D(O1,O2)
如果2D(X,O1)≤D(O1,O2)即可得到D(X,O1)≤D(X,O2) 两边之和大于第三遍
规律2.一个样本点X和两个质心O1,O2
推出:D(X,O2)≥max{0,D(X,O1)-D(O1,O2)} 两边之差小于第三边

在大数据的冲击之下,产生了K-Means新的变种,即Mini Batch K-Means 其原理与随机梯度下降算法类似!

Mini Batch K-Means算法原理分析:
1.Mini-Batch-Kmeans算法(适合大数据的聚类算法Mini Batch K-Means)
这个算法是K-means算法的变种,采用小批量的数据子集减小计算时间,同时能够尽可能的拟合原始的数据。
这里的小批量指的是每一次训练算法时,随机选择子集进行训练,大大减小了计算时间。
Mini-Batch-Kmeans算法使用了一种叫做Mini-Batch(分批处理)的方法对数据点之间的距离进行计算
该算法的迭代步骤有两步:
1:从数据集中随机抽取一些数据形成小批量,把他们分配给最近的质心
2:更新质心
K-Means与Mini-Batch-Kmeans比较分析:
K-Means类概述
    在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法,对应的类是MiniBatchKMeans。一般来说,使用K-Means的算法调参是比较简单的。
    用KMeans类的话,一般要注意的仅仅就是k值的选择,即参数n_clusters;如果是用MiniBatchKMeans的话,也仅仅多了需要注意调参的参数batch_size,即我们的Mini Batch的大小。
    当然KMeans类和MiniBatchKMeans类可以选择的参数还有不少,但是大多不需要怎么去调参。下面我们就看看KMeans类和MiniBatchKMeans类的一些主要参数。
KMeans类主要参数
    KMeans类的主要参数有:
    1) n_clusters: 即我们的k值,一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。
    2)max_iter: 最大的迭代次数,一般如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。
    3)n_init:用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法,因此需要多跑几次以选择一个较好的聚类效果,默认是10,一般不需要改。如果你的k值较大,则可以适当增大这个值。
    4)init: 即初始值选择的方式,可以为完全随机选择’random’,优化过的’k-means++’或者自己指定初始化的k个质心。一般建议使用默认的’k-means++’。
    5)algorithm:有“auto”, “full” or “elkan”三种选择。”full”就是我们传统的K-Means算法, “elkan”是我们原理篇讲的elkan K-Means算法。默认的”auto”则会根据数据值是否是稀疏的,来决定如何选择”full”和“elkan”。一般数据是稠密的,那么就是 “elkan”,否则就是”full”。一般来说建议直接用默认的”auto”
    两者之间聚类效果分析:
    这里写图片描述
MiniBatchKMeans类主要参数
    MiniBatchKMeans类的主要参数比KMeans类稍多,主要有:
    1) n_clusters: 即我们的k值,和KMeans类的n_clusters意义一样。
    2)max_iter:最大的迭代次数, 和KMeans类的max_iter意义一样。
    3)n_init:用不同的初始化质心运行算法的次数。这里和KMeans类意义稍有不同,KMeans类里的n_init是用同样的训练集数据来跑不同的初始化质心从而运行算法。而MiniBatchKMeans类的n_init则是每次用不一样的采样数据集来跑不同的初始化质心运行算法。
    4)batch_size:即用来跑Mini Batch KMeans算法的采样集的大小,默认是100.如果发现数据集的类别较多或者噪音点较多,需要增加这个值以达到较好的聚类效果。
    5)init: 即初始值选择的方式,和KMeans类的init意义一样。
    6)init_size: 用来做质心初始值候选的样本个数,默认是batch_size的3倍,一般用默认值就可以了。
    7)reassignment_ratio: 某个类别质心被重新赋值的最大次数比例,这个和max_iter一样是为了控制算法运行时间的。这个比例是占样本总数的比例,乘以样本总数就得到了每个类别质心可以重新赋值的次数。如果取值较高的话算法收敛时间可能会增加,尤其是那些暂时拥有样本数较少的质心。默认是0.01。如果数据量不是超大的话,比如1w以下,建议使用默认值。如果数据量超过1w,类别又比较多,可能需要适当减少这个比例值。具体要根据训练集来决定。
    8)max_no_improvement:即连续多少个Mini Batch没有改善聚类效果的话,就停止算法, 和reassignment_ratio, max_iter一样是为了控制算法运行时间的。默认是10.一般用默认值就足够了。
K值的评估标准
    不像监督学习的分类问题和回归问题,我们的无监督聚类没有样本输出,也就没有比较直接的聚类评估方法。但是我们可以从簇内的稠密程度和簇间的离散程度来评估聚类的效果。常见的方法有轮廓系数Silhouette Coefficient和Calinski-Harabasz Index。个人比较喜欢Calinski-Harabasz Index,这个计算简单直接,得到的Calinski-Harabasz分数值s越大则聚类效果越好。
    Calinski-Harabasz分数值s的数学计算公式是:
s(k)=tr(Bk)tr(Wk)m−kk−1
    其中m为训练集样本数,k为类别数。Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵。tr为矩阵的迹。
    也就是说,类别内部数据的协方差越小越好,类别之间的协方差越大越好,这样的Calinski-Harabasz分数会高。在scikit-learn中, Calinski-Harabasz Index对应的方法是metrics.calinski_harabaz_score.