《神经网络与深度学习》讲义1—数学基础

来源:互联网 发布:淘宝客发单机器人 编辑:程序博客网 时间:2024/06/03 21:08

本文摘自邱锡鹏老师的《神经网络与深度学习》讲义

范数

矩阵的p范数为:

A=i=1mj=1naijp1/p


导数

p维向量xRp,函数y=f(x)=f(x1,,xp)R,则y关于x的导数为

xf(x)=f(x)x1f(x)xpRp

对于一个p维向量xRp,函数y=f(x)=f(x1,,xp)Rq,则y关于x的导数
xf(x)=f1(x)x1f1(x)xpfq(x)x1fq(x)xpRp×q

常见向量导数

Axx=AT

xTAx=A

导数法则

乘法法则:y=f(x),z=g(x),则

yTzx=yxz+zxy

链式法则:z=f(y),y=g(X)X为矩阵,则:
zXij=tr((zy)TyXij)

常用函数

定义x=[x1,,xK]T,z=[z1,,zK]T

z=f(x)

f(x)是按位运算的,即(f(x))i=f(xi);则f(x)的导数为
f(x)x=[f(xj)xi]K×K=f(x1)000f(x2)000f(xK)=diag(f(x))

logistic函数

logistic函数常用于将实数空间映射到(0,1)区间

σ(x)=11+ex

其导数为
σ(x)=σ(x)(1σ(x))

softmax函数

softmax函数将多个标量映射为一个概率分布。
对于K个标量x1,,xK,softmax函数定义为

zk=softmax(xk)=exp(xk)Ki=1exp(xi)

这样就将K个变量x1,,xK转换为一个分布:z1,,zK
当softmax函数的输入为K维向量x时,
z^=softmax(x)=exp(x)1TKexp(x)

其中1K=[1,,1]K×1K维全1向量。
其导数为
softmax(x)x=diag(softmax(x))softmax(x)softmax(x)T

0 0