核范数以及低秩RPCA

来源:互联网 发布:芒果tv有mac版吗 编辑:程序博客网 时间:2024/05/29 04:54
0范数是指矩阵非零元素的个数
1范数是矩阵所有元素绝对值的和
2范数对应欧式距离
无穷范数对应矩阵所有元素绝对值中最大的那个值
核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclear Norm

核范数可以约束低秩,而低秩的应用范围较广
 
   PCA,这种方法可以有效的找出数据中最主要的元素和结构,去除噪声和冗余,将原有复杂数据降维,揭示隐藏在复杂数据背后的简单结构。我们知道,最简单的主成分分析方法就是PCA,从线性代数的角度看,PCa的目标就是使用另外一组基去重新描述得到的数据空间,希望在这个新的基下,能尽量揭示原有的数据间的关系。这个维度即最重要的“”主元。PCA的目标就是找到这样的主元,最大程度的去除冗余和噪音的干扰。
    PRCA考虑的是这样一个问题,一般我们的数据矩阵会包含结构信息,也包含噪声,那么我们可以将这个矩阵分解为两个矩阵相加,一个是低秩(由于内部包含有一定的结构信息,造成各行或各列间是线性相关的),另一个是稀疏的(由于含有噪声,而噪声是稀疏的)
    与PCA一样,RPCA本质上也是寻找数据在低维空间上的最佳投影问题。对于低秩数据观测矩阵X,假设X受到随机(稀疏)噪声的影响,那么X的低秩性就会被破坏,使得X变成满秩。所以我们就需要将X分解成包含其真实结构的低秩矩阵和稀疏噪声矩阵之和。找到了低秩矩阵,实际上就找到了数据的本质低维空间,那么有了PCA,为什么还有RPCA,因为PCA假设我们的数据噪声是高斯的,对于大的噪声或者严重的离群点,PCA会被其影响,导致无法正常工作。而RPCA则不存在这个假设。它只是假设噪声是稀疏的,而不管噪声的强弱如何。


RPCA与矩阵秩

如果X是一个m行n列的数值矩阵,rank(X)是X的秩,假如rank (X)远小于m和n,则我们称X是低秩矩阵。低秩矩阵每行或每列都可以用其他的行或列线性表出,可见它包含大量的冗余信息。利用这种冗余信息,可以对缺失数据进行恢复,也可以对数据进行特征提取。


lliyuanzh@163.com


0 0
原创粉丝点击