向量求导规则--最小二乘法求解最优解

来源：互联网发布：java微信cms系统源码编辑：程序博客网时间：2024/06/13 22:46

1. 向量求导规则

此部分主要是对Matrix Differentiation的转载。

2.1. 导数定义（一阶导数）

设y⃗ =ϕ(x⃗ )，其中y⃗ 和x⃗ 均为向量。
定义
definition
特别地，如果y是标量，则有∂y∂x⃗ 为1×n的行向量；如果x是标量，则有∂y⃗ ∂x为m×1的列向量。

2.2. 导数规则

y⃗ =Ax⃗ ，其中A与x⃗ 和y⃗ 无关，则有∂y⃗ ∂x⃗ =A
证明：yi=∑jaijxj⇒∂yi∂xj=aij
y⃗ =Ax⃗ ，其中A与x⃗ ,z⃗ 和y⃗ 无关，则有∂y⃗ ∂z⃗ =A∂x⃗ ∂z⃗
证明：yi=∑jaijxj⇒∂yi∂zk=∑jaij∂x⃗ j∂z⃗ k
α=y⃗ TAx⃗ ，其中A与x⃗ 和y⃗ 无关，则有∂α∂x⃗ =y⃗ TA，而∂α∂y⃗ =x⃗ TAT。
证明：α=(y⃗ TA)x⃗ =A′x⃗ ⇒∂α∂x⃗ =A′=y⃗ TA
同理，αT=(x⃗ TAT)y⃗ =A′′y⃗ ⇒∂α∂y⃗ =A′′=x⃗ TAT
α=x⃗ TAx⃗ ，其中A与x⃗ 无关，则有∂α∂x⃗ =x⃗ T(AT+A)。
证明：α=∑i∑jaijxixj⇒∂αxi=∑jaijxj+∑jajixj⇒x⃗ TA+x⃗ TAT=x⃗ T(AT+A)
α=y⃗ Tx⃗ ，则有∂α∂z⃗ =y⃗ T∂x⃗ ∂z⃗ +x⃗ T∂y⃗ ∂z⃗ 。
证明：α=∑ixiyi⇒∂α∂zj=∑i(xi∂yi∂zj+yi∂xi∂zj)
α=x⃗ Tx⃗ ，则有∂α∂z⃗ =2xT∂x⃗ ∂z⃗

之后的就不一一列举了，基本就是chain rule的应用，例如α=y⃗ TAx⃗ ⇒∂α∂z⃗ =∂α∂x⃗ ∂x⃗ ∂y⃗ +∂α∂y⃗ ∂y⃗ ∂z⃗ =y⃗ TA∂x⃗ ∂z⃗ +x⃗ TAT∂y⃗ ∂z⃗

2. 一个应用例子：最小二乘法的最优解

Least Square是二分类问题的经典分类器。
具体地，输入X，输出Y，其中Y∈{0,1}，预测输出y^=β0+∑ixiβi。对于y^≥0.5预测输出1，若y^<0.5预测输出0。
不同的参数β对应于不同的超平面，如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义RSS(Y,X;β)=∑i(y^i−yi)2=∑i(xiβ−yi)2=(Y−Xβ)T(Y−Xβ)，最优分类超平面为argminβ(Y−Xβ)T(Y−Xβ)。
首先对β求导，∂RSS∂β=2(Y−Xβ)T∂(Y−Xβ)∂β=2(Y−Xβ)T(∂Y∂β−∂Xβ∂β)=2(Y−Xβ)T(−X)。令导数为零，有β^=(XTX)−1XTY。

阅读全文

0 0