metric deep learning loss

来源：互联网发布：bilibili直播mac 编辑：程序博客网时间：2024/06/08 11:29

1. softmax loss

Forward:

Z j = w T y j x i + b y j （ 1 ）

p j = e Z j \sum k e Z k （ 2 ）

L k = - \sum j q j, k l o g p j （ 3 ）

Backward:

\partial p j \partial Z m = p j (1 - p j), m = j

\partial p j \partial Z m = - p j p m, m \neq j

\partial L k \partial Z m = = = = = = - \sum j q j, k \partial l o g p j \partial Z m - \sum j q j, k 1 p j \partial p j \partial Z m - \sum j = m q j, k 1 p j p j (1 - p j) - \sum m \neq j q j, k 1 p j (- p j p m) - \sum j = m q j, k (1 - p j) - \sum m \neq j q j, k (- p m) - \sum j = m q j, k (1 - p j) - \sum m \neq j q j, k (- p m) p m - q m, k

\partial L i \partial w k = \partial L i \partial Z m \partial Z m \partial w k = x T i (p m - q m, i)

\nabla w k L = 1 / N \sum i x T i (p m - q m, i) + 2 λ w k

交叉熵softmax注意事项：
1. 在用softmaxloss训练模型时，如果学习率太大，可能会导致loss=NAN。考虑上面第（2）式子，如果j=k时，

pj趋近于0，（3）loss就会nan。如果出现这种情况，可以考虑用较小的学习率。也有可能是初始化权重太大，尝试用不同的初始化策略，比如用xaiver把初始化的权重再除以10或100，尝试加batch_normalizetion层，可以把输出scale较小的范围。
2. 考虑数值计算稳定性情况下的Softmax损失函数

p j = e Z j - m a x ( Z j ) \sum k e Z k - m a x ( Z j )

因为指数计算和指数求和的结果可能非常大，会出现overflow,超出浮点数的范围。

2. Center loss

Foward:

L c = 1 2 \sum i = 1 m | | x i - c y i | | 22

xi：第i张图片的特征值

cyi：该图片所属分类的中心（该分类的特征值的中心）
Backward:

\partial L c \partial x i = x i - c y i

\nabla c j L c = \sum i δ { y i = j } ( c j - x i ) 1 + \sum i δ { y i = j }

在线更新

cj:

c j + 1 = c j - \nabla c j L c

3.Triplet Loss

阅读全文

0 0