Matrix derivatives(矩阵求导)

来源:互联网 发布:tensorflow 关闭sess 编辑:程序博客网 时间:2024/06/06 05:09
11.对于一个函数f:为一个m*n矩阵到实数的映射。定义f对于A的导数为:


Af(A)也是一个m*n的矩阵,其中的元素(i,j)为∂f/∂Aij。




22.同样,引入迹(trace)的概念。

对一个n*n的矩阵A,迹定义为矩阵A的对角线元素之和。

如果a是一个实数(i.e., a 1-by-1 matrix),则tr a=a。迹的性质如下,


33.给定一个训练集,定义X是一个m*n的矩阵,其每行的值为训练集的输入值(m为训练集的样例数)

向量y是一个m*1的向量,对应训练集中每个Xi的目标值

因为所以很容易得到如下的定义,


又已知,得


因而为了得到最小J,由迹的性质的2、3可得5如下

44.所以,得到使得代价函数最小的













#

原创粉丝点击