Logistic Regression的思考与整理

来源：互联网发布：!号c语言中是什么意思编辑：程序博客网时间：2024/06/06 04:50

在NYU上了Machine Learning，学到了一些以前没有注意或者不知道的知识。在原有部分博文的基础上进行更详细地讲解。

关于回归算法的Bias和Variance

加深了对误差理论的理解。

对于一个输入为x⃗ 的回归算法，我们设算法输出的预测函数为g(x)，算法的真正分类函数为f(x)。我们期望的就是让g(x)尽可能地与f(x)靠近。

我们将f(x)和g(x)当成一个连续函数，那么对于特定的xi，r表示输入数据在该点的值，且f(x)=E[r|xi]（因为输入有噪声的缘故）。

E [(r - g (x i)) 2 | x i] = = E [(r - E [r | x i]) 2 | x i]            n o i s e - (E [r | x i] - g (x i)) 2          s q u a r e e r r o r = b i a s E [(r - f (x i)) 2 | x i]          n o i s e - (f (x i) - g (x i)) 2        s q u a r e e r r o r = b i a s

对于固定的xi和一堆g(xi)（我们可以认为是假设集里的所有函数），那么g(xi)就变成了一个随机变量了。

现在考虑一个长度为N的x⃗ 随机样本，我们希望g(xi)和E[r|xi]是相同的。

E x ⃗ [(E [r | x i] - g (x i)) 2 | x i] = (E [r | x i] - E x ⃗ [g (x i)]) 2              b i a s o f l e a r n i n g a l g o n x i + E [(g (x i) - E x ⃗ [g (x i)]) 2]                v a r i a n c e o f l e a r n i n g a l g

其中后者指的是多个函数之间的variance。

对于如图的输入样例，用一次函数去进行分类，那么我们可以明显地发现，对于特定的xi，g(xi)造成的bias非常大，也就是square error特别大。

但是考虑到假设集合（即，所有一次函数的集合），多个g(x)之间的variance是较小的。反正一次函数变来变去就只有ABC三个参数变，化简一下就只剩下斜率和偏移能够变化了。

那么当我们用五次函数去训练分类的时候，我们可以明显地发现，对于特定的xi，g(xi)造成的bias为0，但是五次函数的variance就明显比一次函数大多了。

所以图1是欠拟合，图2则是过拟合。

设f(x)=2，在输入的时候没有噪音，即r=f(x)=2。

设计算法：

对于训练集合，我们让xt均匀得从[0,20]中随机得出。

设

x ⃗ = {(4, 2), (5, 2), (7, 2)}

我们可以看得出来这题的算法得出的g(x)的variance为0，但是它的bias却非常大。

看到一个博客上面说逻辑回归为啥叫逻辑回归，是因为它用了Logistic函数。当时我就觉得非常牛逼，这个函数是科学家用硬生生猜出来的么。

现在才知道这个函数也是推导出来的。

我们要预测一个样本x的类别，则需要比较一下在输入为的x条件下，两个类别的概率大小

P [+ | x] = y P [- | x] = 1 - y

我们假设可以假设P[+|x]>P[−|x]。

y > 1 - y \Rightarrow y 1 - y > 1 \Rightarrow l o g [y 1 - y] > 0

那么我们就考虑函数f(x)=log(y1−y)。

我们让z=log(y1−y)⇒y=11+e−z，

同时我们让wdxd+⋯+w1x1+w0=z，可以得到

P [+ | x] = 1 1 + e - w T x + w 0

这就是Logistic函数的由来。

逻辑回归的损失函数是由log对数损失函数得来的。

输入x1,x2,x3，那么他们的分类是1,1,0的概率是

P [1 | x 1] \times P [1 | x 2] \times P [0 | x 3] \Rightarrow l o g P [1 | x 1] + l o g P [1 | x 2] + l o g P [0 | x 3]

我们让y=P[1|x]，那么对于x1,…,xn得到分类结果是r1,…,rn的概率是

\prod t = 1 n (y t) r t (1 - y t) 1 - r t \Rightarrow \sum t = 1 n (l o g ((y t) r t (1 - y t) 1 - r t)) = \sum t = 1 n [r t l o g (y t) + (1 - r t) l o g (1 - y t)] \to c r o s s e n t r o p y

最后得出的就是交叉熵

而我们的期望是找到w⃗ 来使交叉熵最大，这样等价于找到一个w⃗ 使得交叉熵的相反数最小。

我们可以假设olog0=0。

将以上两个表达式合并为一个，则单个样本的损失函数可以描述为：

c o s t (x, y) = - r t l o g (y t) - (1 - r t) l o g (1 - y t)

全体样本的损失函数可以表示为：

c o s t (r ⃗, y ⃗) = \sum t = 1 n [r t l o g (y t) + (1 - r t) l o g (1 - y t)]

这就是逻辑回归最终的损失函数表达式。

大家可以将y=P[1|x]=11+e−wTx+w0带入后进行求导，则可以得到

\partial E \partial w j = \sum t = 1 n r t x t - \sum t = 1 n (1 - 1 1 + e - w T x + w 0) x t

大家可以发现，使得上面的导数为0，是无法求出解的，所以只能用梯度下降计算

z = s i g m o i d (a) \Rightarrow d z d a = z (1 - z) \Rightarrow \partial \partial w j = - (r t - y t) \sum X t j

如果再考虑learning rate就可以了。

阅读全文

0 0