向量求导规则--最小二乘法求解最优解

来源:互联网 发布:java微信cms系统源码 编辑:程序博客网 时间:2024/06/13 22:46

1. 向量求导规则

此部分主要是对Matrix Differentiation的转载。

2.1. 导数定义(一阶导数)

y⃗ =ϕ(x⃗ ),其中y⃗ x⃗ 均为向量。
定义
definition
特别地,如果y是标量,则有yx⃗ 1×n的行向量;如果x是标量,则有y⃗ xm×1的列向量。

2.2. 导数规则

  1. y⃗ =Ax⃗ ,其中Ax⃗ y⃗ 无关,则有y⃗ x⃗ =A
    证明:yi=jaijxjyixj=aij
  2. y⃗ =Ax⃗ ,其中Ax⃗ ,z⃗ y⃗ 无关,则有y⃗ z⃗ =Ax⃗ z⃗ 
    证明:yi=jaijxjyizk=jaijx⃗ jz⃗ k
  3. α=y⃗ TAx⃗ ,其中Ax⃗ y⃗ 无关,则有αx⃗ =y⃗ TA,而αy⃗ =x⃗ TAT
    证明:α=(y⃗ TA)x⃗ =Ax⃗ αx⃗ =A=y⃗ TA
    同理,αT=(x⃗ TAT)y⃗ =A′′y⃗ αy⃗ =A′′=x⃗ TAT
  4. α=x⃗ TAx⃗ ,其中Ax⃗ 无关,则有αx⃗ =x⃗ T(AT+A)
    证明:α=ijaijxixjαxi=jaijxj+jajixjx⃗ TA+x⃗ TAT=x⃗ T(AT+A)
  5. α=y⃗ Tx⃗ ,则有αz⃗ =y⃗ Tx⃗ z⃗ +x⃗ Ty⃗ z⃗ 
    证明:α=ixiyiαzj=i(xiyizj+yixizj)
  6. α=x⃗ Tx⃗ ,则有αz⃗ =2xTx⃗ z⃗ 

之后的就不一一列举了,基本就是chain rule的应用,例如α=y⃗ TAx⃗ αz⃗ =αx⃗ x⃗ y⃗ +αy⃗ y⃗ z⃗ =y⃗ TAx⃗ z⃗ +x⃗ TATy⃗ z⃗ 

2. 一个应用例子:最小二乘法的最优解

Least Square是二分类问题的经典分类器。
具体地,输入X,输出Y,其中Y{0,1},预测输出y^=β0+ixiβi。对于y^0.5预测输出1,若y^<0.5预测输出0。
不同的参数β对应于不同的超平面,如何评价最佳的分类超平面取决于不同的分类器。
Least Square寻找最小化残差平方和最小的超平面。定义RSS(Y,X;β)=i(y^iyi)2=i(xiβyi)2=(YXβ)T(YXβ),最优分类超平面为argminβ(YXβ)T(YXβ)
首先对β求导,RSSβ=2(YXβ)T(YXβ)β=2(YXβ)T(YβXββ)=2(YXβ)T(X)。令导数为零,有β^=(XTX)1XTY

原创粉丝点击