关于神经网络理论的几个疑问与思考

来源：互联网发布：ubuntu破解root密码编辑：程序博客网时间：2024/05/31 11:04

1，loss function应该如何设计？如果我需要修改loss function，需要遵循哪些规则？

我看到caffe中有多种不同的loss层，但是不理解为什么要这样设计。我有时候很想改loss function，但是又不知道这样改理论上是否可行。

说两个具体的问题：

第一，比如，DRML（2016，CVPR）中用multi label sigmoid 交叉熵函数作为loss function时，如下图：

我非常不能理解，相比于sigmoid 交叉熵函数，它多了一次对标签C的累加，但是最终却没有除以C，这是为什么？

如果我在原layer基础上修改代码，除以了C，然后再在学习率上乘以C.

想想看loss的作用就是反向求导调整训练参数，那么学习率乘以C倍，梯度值除以了C，参数变化量是不是跟没有这个改变时完全一样了？

第二，最开始设计loss是说跟真实值越接近越好，所以用一个函数去刻画，优化的目标也是这个函数计算出来的loss尽可能小，但是实际上我们在比较不同算法时又基本上不靠precision做比较，我们期待的，往往是f1 score最高，既然我们把数据的真实标签送进去了，神经网络也计算了预测结果，那么我们完全可以用f1 score的某个反比函数作为loss函数，这样做以后神经网络的目标就是优化loss最小也就是f1 score最大，这样训练出来的结果f1 score不是应该更高吗？为什么大家不直接这样用呢？

2，分类问题中哪些标准适合做统一对比？上课时老师说不能用precision，因为要考虑recall，有人用f1 score作为标准，有人用AUC 作为标准，但是要面对数据偏倚严重的问题，所以有人又做了有偏倚的f1 score计算探究，有没有比较统一，容易计算，并且非常合理公平的计算方式？

0 0