Logistic regression为什么不用Square error做loss function?

来源:互联网 发布:网络言论自由的特点 编辑:程序博客网 时间:2024/05/21 12:49

假设训练样本为(xi,yi),f(xi)=11+exp((wx+b))
采用类似Linear regression的损失函数Square error:12ni=1l(f(xi)yi)2
那么令其对w求导,得到以下

12i=1nl(f(xi)yi)w=12i=1n2l(f(xi)yi)f(xi)w=12i=1n2l(f(xi)yi)f(xi)zzw=12i=1n2l(f(xi)yi)f(xi)(1f(xi))xi

所以,

yi=0时,若f(xi)=0,则上式为0,符合loss;若f(xi)=1,则上式也为0,不符合loss;
yi=1时,若f(xi)=1,则上式为0,符合loss;若f(xi)=0,则上式也为0,不符合loss;

再看看用suqare error和cross entropy做loss function的loss surface (图片来自台大李宏毅老师课件)
这里写图片描述

原创粉丝点击