Negative log-likelihood function

来源：互联网发布：js实现购物车计算总价编辑：程序博客网时间：2024/05/16 15:30

Softmax function

Softmax 函数 y=[y1,⋯,ym] 定义如下：

y i = e x p ( z i ) \sum j = 1 m e x p ( z j ), i = 1, 2, \dots, m

它具有很好的求导性质：

\partial y i \partial z i = y i * (1 - y i)

其中，y的每一个维度 yi 表明，属于第 i 类的概率。求导过程，请参考：Softmax vs. Softmax-Loss: Numerical Stability

当我们使用softmax 函数作为 output function的时候，即：

y = s o f t m a x (z)

zz 在这里只表示某些需要优化的参数。

我们需要选择 negiative log-likelihood 作为代价函数( cost function), 也被称作 Cross-Entropy cost function. 即：

E (t, y) = - \sum i t i log y i

t表示的是 tagert, y 表示的是model's prediction. 通常，t 表示的是 one-hot representation, y 表示的是各类的 predicted probability.

如果 t 采用的是 one-hot representation, 那么我们的计算公式是:

E (t, y) = - t log y

如果 t 是对应的 index, 而 y 是对应的 predicted probability vector 的话，计算公式：

E (t, y) = - log y [t]

它的求导公式也很简单:

\partial E ( t , y ) \partial z i = \sum j \partial E ( t , y ) \partial y i \partial y j \partial z j = y i - t i

如果 t 采用的是 one-hot representation, 那么我们的计算公式是:

\partial E ( t , y ) \partial z = y - z

如果 t 是对应的 index, 而 y 是对应的 predicted probability vector 的话，计算公式：

y [t] - = 1

\partial E ( t , y ) \partial z : = y

0 0