笔记:Dissimilarity-Based Sparse Subset Selection
来源:互联网 发布:大数据时代的管理变革 编辑:程序博客网 时间:2024/06/08 13:22
Elhamifar, E., Sapiro, G., & Sastry, S. S. (2016). Dissimilarity-based sparse subset selection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(11), 2182-2197.
本文是这篇 PAMI 期刊论文的笔记,主要是对文中的理论方法进行展开详解。本人学术水平有限,文中如有错误之处,敬请指正。
摘要: 从一个大型的数据集或模板中找出有信息量的子集是一个重要的问题,对于许多的计算机视觉、推荐系统、生物/健康信息、和图像和自然语言处理的问题中。给予一对原集和目标集的元素之间的不相似度,考虑一个问题:从原集中找到一个子集,称为表示(representatives)或样例(exemplars),使得其可以有效地描述目标集。此文构建这个问题为一个行稀疏约束的迹最小化问题。由于该问题是一般的 NP-hard,需要考虑一个凸松弛代替。最优解找到一个表示,以及目标集中的每一个元素对原集中每一个的元素的赋值(权重)。也就是获得一个聚类。并分析了优化问题的解作为约束参数的解。此文并说明了当两个数据集被一起划分为多个组之后,此文的算法找到来自所有组的表示,并对数据集进行了聚类。另外,此文的算法可以有效地处理异常点。此文的算法可以处理任意的不相似度,可以是非对称的或违背了三角不等式。为了有效地实现该算法, 此文考虑了 Alternating Direction Method of Multipliers (ADMM) 交替乘子法,使得问题为平方级的复杂度。并且 ADMM 使得问题可以被并行化,更减少了计算的时间。最终,通过真实的数据集,此文的算法提升了最好的结果在两个问题中:场景分类(用图像表示)和时间序列建模和分割(用模型表示)。
1 简介
略
2 Dissimilarity-Based Sparse Subset Selection (DS3)
2.1 问题陈述
假设有一个原集
其中
对比一些当前的最先进的算法 1 2 3,此文不限制
这里的不相似度,可以表示为用模板表示数据的编码误差。另一方面,
2.2 不相似度
注意的是此文可以关注于相似度
2.3 DS3 算法
给定
其中
2.3.1 Simultaneous Sparse Recovery-Based Optimization
为了选择一部分的
其中
其中直接使用
其中
2.3.2 约束参数的作用
当改变约束参数
图 3 中一个近似非线性的流形,使用表达仿射模型(从带噪声的数据中获得)
2.4 处理异常点
此文的算法可以有效地处理异常值,于原集和目标集中。一个原集的异常值对应着一个元素不能很好地去表示目标集的元素。由于此文的框架是选择一些表示,
另一方面,目标集
为了实现这个目标,此文介绍了一个新的优化变量
上述的约束表明,每一个
将上述的目标优化重写为矩阵形式:
其中
一个可能的解是所有的权值都相等
其中参数
2.5 聚类
最优解
因此,可以将
2.6 Alternative Formulation
上述的优化问题并不直接要求具体的表示数量,而是旨在,通过
其中
3 DS3 实现
此文考虑 Alternating Direction Method of Multipliers (ADMM) 6 7 交替乘子法来实现 DS3 算法。这个实现的计算复杂度为
考虑用 ADMM 方法实现优化问题,首先介绍一个辅助的变量
其中
其中
其中
Algorithm 1: DS3 using ADMM
Initialize:
1: While
2: 更新
3: 更新 Lagrange 乘子矩阵
4: 更新误差
5: 更新
6: End while
Output: 最优解
该实现方法使得内存和计算时间复杂度为
最小化 Lagrangian 函数关于
Z ,其计算时间复杂度为O(MN) 。这里可以获得最优解在p=2 时,通过 shrinkage 操作;或是p=∞ 时,通过投影到ℓ1 球中 8 9 。注意到优化问题可以被分为M 个独立的子优化问题,根据Z 的M 行。所以,如果有了P 个并行处理资源,可以减少计算时间到O([M/P]N) 。最小化 Lagrangian 函数关于
C 服从单纯性的约束{1TC=1T, C≥0} ,可以使用 一种算法 10 计算时间复杂度为O(Mlog(M)N) 。注意到可以优化N 个独立的子优化问题,根据C 的N 行。如果有了P 个并行处理资源,可以减少计算时间到O(Mlog(M)[N/P]) 。- 更新参数
Λ 有着O(MN) 计算时间,也可以由M 行或N 列独立更新,于是计算时间复杂度变为O([M/P]N) 或O(M[N/P]) ,如果使用P 个并行处理资源。
最终,此文提出的 ADMM 实现的算法,以
表1 平均计算时间: CVX 和此文的算法
表 1 列出了 CVX 和此文提出的算法的平均计算时间,基于
4 理论分析
4.1 约束参数的作用
优化目标的约束参数对两个相对的项进行权衡:表示的数量,和表示产生的编码误差。换句话说,如果选择了较多的表示数量,就可以获得较小的编码误差。反之亦然。当增加
Theorem 1 考虑之前的优化问题,令
对于
注意到阈值
将
换句话说,
4.2 聚类证明
当
例 1 令
其中
规范划分数据
定义 1 令
定义
换句话说,
定义 2 给定成对的
接着,此文说明如果
定理 2 给定成对的不相似度
对任意的
4.3 相同的原集和目标集
如果原集和目标集是一样的,就是一种特殊的情况,当前也有一些算法研究这个问题 13 14 15 。在给定数据集中数据点成对的不相似度后,可以找到其表示。
假设 1 当
例 2 考虑如图 7 所示的数据集,其中所有点均由两个簇
在
推论 1 假设
5 实验
略
- A. Kulesza and B. Taskar, “k-DPPs: Fixed-size determinantal point processes,” in Proc. Int. Conf. Mach. Learn., 2011. ↩
- B. J. Frey and D. Dueck, “Clustering by passing messages between data points,” Science, vol. 315, pp. 972–976, 2007. ↩
- R. H. Affandi, A. Kulesza, E. B. Fox, and B. Taskar, “Nystrom approximation for large-scale determinantal processes,” in Proc. Int. Conf. Mach. Learn., 2013. ↩
- E. P. Xing, A. Y. Ng, M. I. Jordan, and S. Russell, “Distance metric learning, with application to clustering with side-information,” in Proc. Adv. Neural Inf. Process. Syst., 2002, pp. 505–512. ↩
- J. V. Davis, B. Kulis, P. Jain, S. Sra, and I. S. Dhillon, “Informationtheoretic metric learning,” in Proc. 24th Int. Conf. Mach. Learn., 2007, pp. 209–216. ↩
- S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein, “Distributed optimization and statistical learning via the alternating direction method of multipliers,” Found. Trends Mach. Learn., vol. 3, pp. 1–122, 2011. ↩
- D. Gabay and B. Mercier, “A dual algorithm for the solution of nonlinear variational problems via finite-element approximations,”Comput. Math. Appl., vol. 2, pp. 17–40, 1976. ↩
- P. Combettes and V. Wajs, “Signal recovery by proximal forwardbackward splitting,” SIAM J. Multiscale Model. Simul., vol. 4, pp. 1168–2200, 2005. ↩
- C. Chaux, P. Combettes, J. C. Pesquet, and V. Wajs, “A variational formulation for frame-based inverse problems,” Inverse Problems, vol. 23, pp. 1495–1518, 2007. ↩
- J. Duchi, S. Shalev-Shwartz, Y. Singer, and T. Chandra, “Efficient projections onto the l1-ball for learning in high dimensions,” in Proc. Int. Conf. Mach. Learn., 2008, pp. 272–279. ↩
- M. Grant and S. Boyd. CVX: Matlab software for disciplined convex programming [Online]. Available: http://cvxr.com/cvx ↩
- G. Wesolowsky, “The Weber problem: History and perspective,”Location Sci., vol. 1, pp. 5–23, 1993. ↩
- R. H. Affandi, A. Kulesza, E. B. Fox, and B. Taskar, “Nystrom approximation for large-scale determinantal processes,” in Proc. Int. Conf. Mach. Learn., 2013. ↩
- A. Nellore and R. Ward, “Recovery guarantees for exemplarbased clustering,” arXiv:1309.3256, 2014. ↩
- P. Awasthi, A. S. Bandeira, M. Charikar, R. Krishnaswamy, S. Villar, and R. Ward, “Relax, no need to round: Integrality of clustering formulations,” in Proc. Conf. Innovations Theoretical Comput.
Sci., 2015, pp. 191–200. ↩
- 笔记:Dissimilarity-Based Sparse Subset Selection
- subset selection
- 论文读书笔记-Submodular meets Spectral: Greedy Algorithms for Subset Selection, Sparse Approximation and D
- 笔记:Sparse and Truncated Nuclear Norm Based Tensor Completion
- 笔记:Structure-Constrained Low-Rank and Partial Sparse Representation with Sample Selection for image
- 《Vehicle Detection in High-Resolution Aerial Images Based on Fast Sparse Representation ...》论文笔记
- Column based selection in rich edit control.
- Sparse Filtering、Sparse Coding学习笔记
- Sparse Autoencoder学习笔记
- embedded matlab subset中的帧信号(frame-based signals)
- Effective keyword-based Selection of Relational Databases(未完成)
- 基于Density Based Selection 的文本摘要算法
- subset
- Subset
- Subset
- Subset
- subset
- subset
- javaWeb学习_02:css
- 关于DNS、子网掩码、默认网关
- NestedScrollView 中的 EditText 问题
- Spring Cloud构建微服务架构:服务网关
- ORACLE V$SESSION和V$PROCESS字段详解
- 笔记:Dissimilarity-Based Sparse Subset Selection
- php中isset和empty区别
- 综合课程设计第二次作业
- python idle调出上一次输入
- 【Theano】单层带先验感知器:3月18日调试日志
- 跨域访问-预请求及跨域常见问题
- Hibernate 缓存机制
- 内部赛 字母统计表 格式最重要
- STL算法replace,replace_if,replace_copy.replace_copy_if