代价函数交叉熵

来源：互联网发布：蓝光刻录数据编辑：程序博客网时间：2024/06/08 06:05

1.简介

交叉熵, Cross Entropy.
一般用作二分类/多分类的代价函数, 而不用于回归问题.

对于离散变量X的两个概率分布p与q, 它们的交叉熵定义为:

符号约定:
n : 样本个数.
y : 观测值.
y^ : 预测值.
针对一个batch, 损失函数就是:

C = - 1 n \sum i = 1 n [y i ln y^i + (1 - y i) ln (1 - y^i)], (2)

基本单元就是:

- [y ln y^+ (1 - y) ln (1 - y^)] (3)

式(2) 看上去并不直观, 那我们来分析一下分类问题中, 它作为损失函数的合理之处:
假设为二分类,

y∈{0,1},

y^∈[0,1],

y^ 由 logistic 或 softmax得到.
1. 考虑到对数值为负且系数为负, 所以总的值为正且最小值为0
2. 当

y^≈y=0 or y^≈y=1 , 损失函数

C≈0.

图2-1 神经网络

对图2-1 中的网络, 反向传播时求偏导,

\partial C \partial w j = 1 n \sum x x j (σ (z) - y) . (3)

式(3) 中可以看到, 权重的学习速率可以被 σ(z)−y 控制，也就是被输出结果的误差所控制。误差越大我们的神经元学习速率越大。这正是我们直觉上所期待的那样.

同多分类应用.

神经网络中, 多分类(类别数为n)问题的输出层就是n个节点, 激活函数一般选 softmax. target是one-hot形式, 所以使用交叉熵作损失函数, 跟二分类没什么差别, 针对一个样本, 损失函数为:

J = \sum i = 1 类 别 数 n - (y i ln y^i) (2.1)

只有一个

yi=1.

均方误差函数, 英文中有个更通用的叫法: quadratic loss function, 即 二次损失函数.

\partial C \partial w \partial C \partial b = = (a - y) σ' (z) x = a σ' (z) (a - y) σ' (z) = a σ' (z), (4) (5)

当神经元输出接近 1 时，曲线变得非常平坦，因此 σ′(z) 就会变得非常小, 导致尽管误差很大但学习速度很小, 不具有交叉熵函数的优点.

实验摘自参考文献[1] 中的web页面可视化训练控件.
这些图片应该这么看:
(1) 与 (2): 初始权重与偏置分别为0.6与0.9, 经过训练得到误差变化曲线
(3) 与 (4): 初始权重与偏置分别为2.0与02.0, 经过训练得到误差变化曲线

这里写图片描述
图 3-1 均方误差函数的表现

这里写图片描述
图 3-2 交叉熵函数的表现

对比图3-1-(4) 与 3-2-(4) , 可以看到交叉熵函数的下降速率优于均方差.

阅读全文

0 0