softmax函数及其性质

来源：互联网发布：苹果电脑数据恢复编辑：程序博客网时间：2024/04/29 08:07

本文讨论机器学习中常见的softmax函数，并推导了softmax函数的梯度，讨论了softmax函数的一些基本性质。

softmax函数定义为

h s o f t m a x (x i) = exp ( x i ) \sum n j = 1 exp ( x j )

可以认为是先对x的每个分量xi做了一个非线性变换exp(⋅)，再将变换后的结果归一化到区间[0,1]。

然而，上式中存在“冗余”,可以参考UFLDL中关于softmax的相关描述。

Softmax regression has an unusual property that it has a “redundant” set of parameters

这是因为xi,i=1,2,⋯,n实际只有n−1个自由变量。例如，将式中分子分母同时除以exp(x1)并用xj代替x1−xj，得到：

h s o f t m a x (x i) = 1 1 + \sum n j = 2 exp ( - x j )

sigmoid函数是softmax函数在n=2的一种特殊情形。取x1=0， x2=x：

h s i g m o i d (x) = 1 1 + exp ( - x )

sigmoid函数经常用于二元回归问题，而softmax则可以应用于多元回归，可以认为softmax函数是sigmoid函数的推广。

下面推导softmax函数的导数
为简化推导过程，令归一化参数Z=∑nj=1exp(xj)，则：

\partial h \partial x i = \partial exp ( x i ) \partial x i Z - \partial Z \partial x i exp ( x i ) Z 2 = exp ( x i ) Z - exp 2 ( x i ) Z 2 = exp ( x i ) Z - (exp ( x i ) Z) 2 = h (x i) - (h (x i)) 2

最后的结果很优雅，写成向量形式:

\partial h \partial x = h (x) - h 2 (x) = h (x) (1 - h (x))

可以发现，这个和sigmoid函数的导数计算公式相似：

\partial h s i g m o i d \partial x = h s i g m o i d (1 - h s i g m o i d)

这也不难理解：前面已经说过，sigmoid函数视为softmax的一种特例，所以二者本来就应该有相似的形式。

推导出softmax函数的导数之后，对含有sigmoid函数的目标函数求导也就很容易了。

实际中常用的是J3和J4

1 0