Collaborative Filtering 协同过滤小结 part-2：SVD

来源：互联网发布：照片缩小软件手机编辑：程序博客网时间：2024/06/13 13:00

　　接下来介绍下SVD

　　SVD-CF是应用最广也最成功的协同过滤方法，现在对SVD介绍下。

　　1) 已知矩阵An,m，如何最大限度地保留信息地近似估计。
　　Singular Value Decomposition给出了一种矩阵分解的方法。
　　

A n, m = U n, n Σ n, n V T m, n

其中Σ=diag(σ1,σ2,σ3,...,σn);　

σ1≥σ2≥σ3≥...≥σr≥σr+1=...=σn=0
　　2) 正交性质：

V−1=VT;

UTU=VTV=I;U−1=UT;
　　正交矩阵映射保持距离不变，所以是一个保距映射。
　　从分解可以理解为，任何一个点，都可以由同维度内两个正交系的乘积表示。
　　3) F-2阶范数：

||A||2F=[∑ni∑j|ai,j|2]=σ21+σ22+σ23+...+σ2r
　　若

A^= U n, k Σ k, k V T m, k

　　则

m i n r a n k (B) = k | | A - B | | 2 F = | | A - A^| | 2 F = σ 2 k + 1 + σ 2 k + 2 +, . . ., + σ 2 n

　　（上面这个是理解SVD在工程中寻优方法的关键。构造k秩的矩阵B，使得满足最小化F-2阶范数

||A−B||2F，则可以逼近于

A^。）
　　那么，我们可以取top-K秩，来估计矩阵A。
　　取top-K秩，还可以实现降噪取主要部分的功能。
　　
　　## 与特征值的关系 ##
　　U的列向量是

AAT的特向。
　　V的列向量是

ATA的特向。

　　换个角度，理解下SVD分解。
　　1) 对矩阵An,m，可以看做是m维空间内的一个线性变换。
　　选择同空间内一组正交的单位基底{vi}
　　则可以通过线性变换A，将{vi}投射到另外一组基底表示的空间去，得{Avi}。
　　若令投射空间的单位基底为{ui}，则有
　　

A v i = σ i u i ； 其 中 σ i 表 示 投 射 空 间 某 维 上 的 模 σ i = | A v i |

　　2) 任意向量

x由基底

{vi}表示如下：

x=∑ri=1<vi,xi>vi
　　经过

A线性变换后：
　　

Ax=A∗∑ri=1<vi,xi>vi
　　　　

=∑ri=1A<vi,xi>vi
　　　　

=∑ri=1AvTixivi
　　　　

=∑ri=1vTixiAvi
　　　　

=∑ri=1vTixiσiui
　　　　

=∑ri=1uiσivTixi
　　可以得到：

A=U[σ]VT
　　

A[v1,v2,...,vk]=[σ1u1,σ2u2,...,σk,uk]
　　此时，只知道

v是正交的，两边同乘以

VT，也可以得到

A=U[σ]VT
　　

A = U [σ] V T

ui之间是什么关系呢？
　　

<Avi,Avk>=(Avi)T∗(Avk)=vTiAT∗(Avk)=<vi,AT∗Avk>
　　notice 若取

vi是

ATA的特征向量。对称矩阵的不同非零特值的特向是正交的。
　　则上式

=vTiAT∗Avk=vTiλkvk=λkvTivk=0
　　由投射关系可得：
　　

<Avi,Avk>=<σiui,σkuk>=(σiui)T∗(σkuk)=σiσk<ui,uk>
　　所以<ui,uk>=0，即{ui}也是正交的，在v为ATA的特向时。
　　所以

σi=|Avi|=λi−−√;注:|Avi|2F=∑k(λi∗vi,k)2−−−−−−−−−−−√=λi∗vTivi−−−−√
　　且

A可以表示为：
　　

A = U [λ \sqrt] V T

　　于是我们可以找到两组正交基底，满足条件，what a happy life。
　　对其中一组基底{v} 经过线性变换A，投射到新的正交基底下，表示为λi−−√vi，其中 λ是ATA的特值。
　　

A v i = λ i - - \sqrt u i

λ 表 示 A T A 的 特 征 值 ， v 表 示 A T A 的 特 征 向 量 ， u 表 示 A A T 的 特 征 向 量

　　到此表明：任意的矩阵A可以分解成三个矩阵，V表示ori-domain内的一组标准正交基，λ表示v与u中的对应向量之间的数量关系（拉伸了多少倍），U表示经过A线性变换后，co-domain内的一组标准正交基。

1 0