softmax函数及其性质

来源:互联网 发布:苹果电脑数据恢复 编辑:程序博客网 时间:2024/04/29 08:07

本文讨论机器学习中常见的softmax函数,并推导了softmax函数的梯度,讨论了softmax函数的一些基本性质。

softmax函数定义为

hsoftmax(xi)=exp(xi)nj=1exp(xj)

可以认为是先对x的每个分量xi做了一个非线性变换exp(),再将变换后的结果归一化到区间[0,1]

然而,上式中存在“冗余”,可以参考UFLDL中关于softmax的相关描述。

Softmax regression has an unusual property that it has a “redundant” set of parameters

这是因为xi,i=1,2,,n实际只有n1个自由变量。例如,将式中分子分母同时除以exp(x1)并用xj代替x1xj,得到:

hsoftmax(xi)=11+nj=2exp(xj)

sigmoid函数是softmax函数在n=2的一种特殊情形。取x1=0x2=x

hsigmoid(x)=11+exp(x)

sigmoid函数经常用于二元回归问题,而softmax则可以应用于多元回归,可以认为softmax函数是sigmoid函数的推广。

下面推导softmax函数的导数
为简化推导过程,令归一化参数Z=nj=1exp(xj),则:

hxi=exp(xi)xiZZxiexp(xi)Z2=exp(xi)Zexp2(xi)Z2=exp(xi)Z(exp(xi)Z)2=h(xi)(h(xi))2

最后的结果很优雅,写成向量形式:

hx=h(x)h2(x)=h(x)(1h(x))

可以发现,这个和sigmoid函数的导数计算公式相似:

hsigmoidx=hsigmoid(1hsigmoid)

这也不难理解:前面已经说过,sigmoid函数视为softmax的一种特例,所以二者本来就应该有相似的形式。

推导出softmax函数的导数之后,对含有sigmoid函数的目标函数求导也就很容易了。

  1. J1=h
    J1x=h(x)(1h(x))
  2. J2=12h2
    J2x=h2(x)(1h(x))
  3. J3=hlog(h)
    J3x=(1+logh(x))h(x)(1h(x))
  4. J4=ylog(h)
    J4x=y(1h(x))

实际中常用的是J3J4

1 0
原创粉丝点击