欧拉聚类(Euler Clustering)

来源:互联网 发布:软件测试中心 编辑:程序博客网 时间:2024/04/28 03:47

Euler Clustering, Jian-Sheng Wu, Wei-Shi Zheng, Jian-Huang Lai, IJCAI2013

本文地址:http://blog.csdn.net/shanglianlm/article/details/47830823

1 简介(Introduction)

Euler Clustering 作为一种特殊的 Kernel k-means 聚类算法,明式地映射实数空间的数据到相同维数的复数空间,使得它可以有效地处理大规模问题。

2 预备知识(Preliminary)

2.1 基于 Kernel 的 k-means(Kernel k-means)

Kernel k-means 首先使用一个核函数隐式的把数据点从原空间映射到 RKHS 空间(无限维空间数据线性可分),然后在 RKHS 空间 对数据进行聚类。

具体来说,这里写图片描述为数据集,这里写图片描述为映射函数,C 为聚类个数。kernel k-means 使用 通过最小化 distortion error 来聚类:
这里写图片描述
其中 mc 为 聚类中心(representative prototype):
这里写图片描述
获得最优的 mc 后,剩余的数据点分配给离它最近的 prototypes :
这里写图片描述
但是由于数据点在 RKHS 空间的隐式表示,因此 cluster prototypes 不能被明式表示,因此只能使用 kenel trick 来计算 mc
这里写图片描述
明显它要求较大的内存来存储 full kernel matrix 。每次迭代要求 O(Cn2) 时间用来得到每个数据的标签。因此传统的 kernel k-means 不适合大规模聚类问题。

2.2 欧拉 Kernel(Euler Kernel)

不同于一般的 Mercer 核, Euler Kernel 矩阵 定义在复数空间(complex space)。Euler Kernel 矩阵的 第 (j, q) 个元为
这里写图片描述
此外我们有 KH=K ,因为 Kqj=Kjq 表示复共轭操作(complex conjugate operator)。
Euler kernel 映射数据从 d 维实数空间(real space ) 到 d 维复数 RKHS 空间(complex RKHS space )
这里写图片描述
其中 i 为虚数单位 ( imaginary unit)。
因此, RKHS 中 两个映射点的平方Euclidean距离函数 d( ; )
这里写图片描述
这里写图片描述
这里 d 为一个实数。所以尽管 kernel matrix 定义在复数空间,d 仍然可以用来度量两个点之间的相似度。

3 欧拉聚类(Euler Clustering)

Euler kernel 明式地映射数据从实数空间到复数空间,它在复数空间的映射可以明式地表示。因此, cluster representative prototype mc
这里写图片描述
根据 kernel k-means,有最优的 mc
这里写图片描述
由(6)有
这里写图片描述
由此我们推导出 Euler clustering 的准则:
这里写图片描述

全部的算法如下:
这里写图片描述
时间复杂性:
这里写图片描述

参考及引用文献
[1] Euler Clustering
[2] [Euler Principal Component Analysis] ()

0 0
原创粉丝点击