关于神经网络理论的几个疑问与思考

来源:互联网 发布:ubuntu破解root密码 编辑:程序博客网 时间:2024/05/31 11:04

1,loss function应该如何设计?如果我需要修改loss function,需要遵循哪些规则?

我看到caffe中有多种不同的loss层,但是不理解为什么要这样设计。我有时候很想改loss function,但是又不知道这样改理论上是否可行。

说两个具体的问题:

第一,比如,DRML(2016,CVPR)中用multi label sigmoid 交叉熵函数作为loss function时,如下图:


我非常不能理解,相比于sigmoid 交叉熵函数,它多了一次对标签C的累加,但是最终却没有除以C,这是为什么?

如果我在原layer基础上修改代码,除以了C,然后再在学习率上乘以C.

想想看loss的作用就是反向求导调整训练参数,那么学习率乘以C倍,梯度值除以了C,参数变化量是不是跟没有这个改变时完全一样了?

第二,最开始设计loss是说跟真实值越接近越好,所以用一个函数去刻画,优化的目标也是这个函数计算出来的loss尽可能小,但是实际上我们在比较不同算法时又基本上不靠precision做比较,我们期待的,往往是f1 score最高,既然我们把数据的真实标签送进去了,神经网络也计算了预测结果,那么我们完全可以用f1 score的某个反比函数作为loss函数,这样做以后神经网络的目标就是优化loss最小也就是f1 score最大,这样训练出来的结果f1 score不是应该更高吗?为什么大家不直接这样用呢?


2,分类问题中哪些标准适合做统一对比?上课时老师说不能用precision,因为要考虑recall,有人用f1 score作为标准,有人用AUC 作为标准,但是要面对数据偏倚严重的问题,所以有人又做了有偏倚的f1 score计算探究,有没有比较统一,容易计算,并且非常合理公平的计算方式?





0 0
原创粉丝点击