统计学习精要 (Elements of Statistical Learning ) 习题 3.21

来源：互联网发布：知乎扫地机器人编辑：程序博客网时间：2024/05/04 06:32

3.21 Show that the solution to the reduced-rank regression problem (3.68), with Σ estimated by YTY/N, is given by (3.69).
Hint: Transform Y to Y∗=YΣ−1, and solved in terms of the canonical vectors u∗. Show that Um=Σ−12U∗m ,and a generalized inverse is U−m=U∗TMΣ12.

思路：

(3.68) 是

B ̂ r r (m) = arg r a n k (B) = m min \sum i = 1 N (y i - B T x i) T Σ - 1 (y i - B T x i) .

其中

Σ是拟合误差的协方差矩阵。这个问题表示线性拟合用的矩阵B的秩是m的限制下，最小化标准化的拟合误差。此处如果用

YTY/N替换

Σ，那么其解就是

B ̂ r r (m) = B ̂ U m U - m

在下文，我用秩r替换秩m，N看作是新的矩阵，仅仅用的符号改变而已。证明这个需要准备一个小的定理。

定理一：S是一个m×n的矩阵且秩为m。若求同样m×n的矩阵P但秩为r(≤m)，使得tr[(S−P)T(S−P)]最小化，那么P=SNNT，其中N大小是n×r且其列向量是STS的前r个标准化的特征向量。

证明：
假定 P=MNT，M∈Rm×r， N∈Rn×r 且 NTN=I。则

arg P min t r [(S - P) T (S - P)] = arg M min t r [(S - M N T) T (S - M N T)]

因此

M=SN，且

P=SNNT。代入则得

arg N T N = I min t r [(S - S N N T) T (S - S N N T)] = t r (S T S - N T S T S N)

因此问题转化为

arg N T N = I max t r (N T S T S N)

因此

N是

STS的前

r个特征向量。

回归原题，

\sum i = 1 N (y i - B T x i) T Σ - 1 (y i - B T x i) = t r a c e (Y - X B) Σ - 1 (Y - X B) T = t r a c e (Y - X B) Σ - 1 2 Σ - 1 2 T (Y - X B) T = t r a c e (Y * - X B *) T (Y * - X B *)

其中

Y∗=YΣ−12，

B∗=BΣ−12。

展开则可以得到

t r a c e (Y * - X B *) T (Y * - X B *) = t r a c e (Y * T Y * - 2 Y * T X B * + B * T X T X B *) = t r a c e (Y * T Y * - Y * T X (X T X) - 1 2 (X T X) - 1 2 X T Y *) + t r a c e (Y * T X (X T X) - 1 2 (X T X) - 1 2 X T Y * - 2 Y * T X (X T X) - 1 2 (X T X) 1 2 B * + B * T (X T X) 1 2 (X T X) 1 2 B *) = t r a c e (Y * T Y * - Y * T X (X T X) - 1 2 (X T X) - 1 2 X T Y *) + t r a c e ((X T X) - 1 2 X T Y * - (X T X) 1 2 B *) T ((X T X) - 1 2 X T Y * - (X T X) 1 2 B *)

令S=(XTX)−12XTY∗， P=(XTX)12B∗，那么根据定理一 P=SNNT，其中N 是STS的前r个特征向量。又因为ST=Y∗TX(XTX)−12=(YTY)−12(YTX)(XTX)−12，因此N是canonical vectoer.

最后，(XTX)12B∗=(XTX)−12XTY∗NNT，因此 B=(XTX)−1XTYΣ−12NNTΣ−12。这和题目的B̂ rr(m)=B̂ UmU−m含义一致。

0 0