奇异值分解与最小二乘问题

来源：互联网发布：如何当淘宝模特编辑：程序博客网时间：2024/06/03 10:52

很多线性回归器的损失函数为均方误差：

l o s s = ∥ X w - y ∥ 22

求解模型参数，需要最小化损失函数：

m i n ∥ X w - y ∥ 22

X \in R m * n, w \in R n, y \in R m

该类问题分为三种情况：
1.m=n且X为非奇异矩阵，这时

Xw=y有唯一解：

w=X−1y
2.m>n，即约束个数大于方程个数，此时

Xw=y无解，该类问题称为超定问题。
3.m<n，即约束个数小于方程个数，此时

Xw=y有无穷解该类问题称为欠定问题

在机器学习中，绝大部分问题都是样本数大于特征数，对应于超定问题，并且一般情况下为非一致方程，此时方程无解（一致方程的超定问题是有解的，通过求解广义逆矩阵），因此转向求解最小二乘问题，即最小化∥Xw−y∥22，将其转化为矩阵形式，求导，另导数为0，可以解得：

w = (X T X) - 1 X T y

推导见：线性最小二乘求解
这种求解方式有几个问题：
1. 涉及到n*n维矩阵的求逆运算，实际使用中计算量巨大。
2.

XTX可能不可逆，这个可以用l2正则或者求解伪逆的形式解决。

SVD奇异值分解

不同于特征值分解使用的情景受限，对于任意一个矩阵A∈Rm∗n，都可以分解为：

s v d (A) = [U] [S] [V T]

其中：

U∈Rm∗m，S∈Rm∗n，V∈Rn∗n

U的列向量为

A的左奇异向量，也即

AAT的特征向量；

VT的列向量为

A的右奇异向量，也即

ATA的特征向量，

S为

[Σ0]，

Σ为对角矩阵，其值为矩阵

A的奇异值

σ，即

AAT的特征值

λ=σ2，

U和

VT都是正交矩阵。
证明：

A A T = U S V T (U S V T) T = U S (V T V) S T U T = U (S S T) U T

(A A T) U = Σ ¯ U

A T A 同

再来看最小二乘问题：

∥ X w - y ∥ 22 = ∥ U [Σ 0] V T w - b ∥ = ∥ [Σ 0] V T x - U y ∥

U可以拆解为

[Un,Um−n]，因此上式：

= ∥ [Σ 0] V T w - [U n, U m - n] T y ∥

= ∥ [Σ V T w - U T n - U T m - n y] ∥

= ∥ Σ V T w - U T n y ∥ + ∥ U T m - n y ∥ \geq ∥ U T m - n y ∥

也即当

∥ΣVTw−UTny∥=0 时上式取等号，此时

∥Xw−y∥22取最小值，解得：

w = (Σ V T) - 1 U T n y = V Σ - 1 U T n y

按照SVD的方式必有解，这里

Σ是对角矩阵，求逆很简单，

U和

V都是正交矩阵，因此转置与其逆矩阵相等。
通常情况下

Σ是按照奇异值由大到小排列的，且衰减的特别快，一般前10%的奇异值之和就占到了总和的95%以上，因此我们可以将小于某个阈值的的奇异值及其对应的左右奇异向量全部舍弃掉，进而进一步的进行矩阵规模的缩减，在sklearn中就是采用的这种方式，只不过在求解

Σ的逆矩阵时，阈值=1e-15，多用了一个alpha参数，

Σ−1=Σ∥Σ+alpha∥。

特别地，对于齐次方程的超定问题：

m i n ∥ X w ∥

我们有：

∥ X w ∥ = w T (X T X) w

假设

w为

XTX的特征值，约束

∥w∥=1，上式化简为:

m i n ∥ X w ∥ = m i n λ 2 ∥ w ∥ = m i n λ 2

因此我们需要求解的

w即是

XTX最小特征值对应的特征向量，对X进行svd，根据前面的理论，我们只需找到

S中最小的特征值对应于

V的特征向量即是

w的值。

阅读全文

0 0