《神经网络与深度学习》讲义1—数学基础

来源：互联网发布：淘宝客发单机器人编辑：程序博客网时间：2024/06/03 21:08

本文摘自邱锡鹏老师的《神经网络与深度学习》讲义

矩阵的p范数为：

∥ A ∥ = ⎛ ⎝ \sum i = 1 m \sum j = 1 n ∣ a i j ∣ p ⎞ ⎠ 1 / p

p维向量x∈Rp，函数y=f(x)=f(x1,⋯,xp)∈R，则y关于x的导数为

\nabla x f (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f ( x ) \partial x 1 ⋮ \partial f ( x ) \partial x p ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R p

对于一个

p维向量

x∈Rp，函数

y=f(x)=f(x1,⋯,xp)∈Rq，则

y关于

x的导数

\nabla x f (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 ( x ) \partial x 1 ⋮ \partial f 1 ( x ) \partial x p \dots ⋮ \dots \partial f q ( x ) \partial x 1 ⋮ \partial f q ( x ) \partial x p ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R p \times q

\partial A x \partial x = A T

\partial x T A \partial x = A

乘法法则：y=f(x),z=g(x)，则

\partial y T z \partial x = \partial y \partial x z + \partial z \partial x y

链式法则：

z=f(y),y=g(X)，

X为矩阵，则：

\partial z \partial X i j = t r ((\partial z \partial y) T \partial y \partial X i j)

定义x=[x1,⋯,xK]T,z=[z1,⋯,zK]T，

z = f (x)

f(x)是按位运算的，即

(f(x))i=f(xi)；则

f(x)的导数为

\partial f ( x ) \partial x = [\partial f ( x j ) \partial x i] K \times K = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ f' (x 1) 0 ⋮ 0 0 f' (x 2) ⋮ 0 \dots \dots ⋮ \dots 00 ⋮ f' (x K) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = d i a g (f' (x))

logistic函数常用于将实数空间映射到(0,1)区间

σ (x) = 1 1 + e - x

其导数为

σ' (x) = σ (x) (1 - σ (x))

softmax函数将多个标量映射为一个概率分布。
对于K个标量x1,⋯,xK，softmax函数定义为

z k = s o f t m a x (x k) = exp ( x k ) \sum K i = 1 exp ( x i )

。
这样就将

K个变量

x1,⋯,xK转换为一个分布：

z1,⋯,zK。
当softmax函数的输入为

K维向量

x时，

z^= s o f t m a x (x) = exp ( x ) 1 - T K exp ( x )

其中

1−K=[1,⋯,1]K×1是

K维全1向量。
其导数为

\partial s o f t m a x ( x ) \partial x = d i a g (s o f t m a x (x)) - s o f t m a x (x) s o f t m a x (x) T

0 0