逻辑回归

来源：互联网发布：linux echo 串口编辑：程序博客网时间：2024/05/20 03:05

转自http://www.cnblogs.com/dreamvibe/p/4248769.html

逻辑回归

一、逻辑回归的认识

逻辑回归是一个用来解决二分类的简便方法。先来看看逻辑回归解决二分类的基本思想。

之前写了线性回归，现在写逻辑回归~都叫回归，有什么不同呢？

首先，从机器学习的角度说一下。机器学习中，有两个问题是比较相似的，即预测和分类。通常将模型的输出是有限的离散值的问题称为分类问题，而将模型的输出是连续值的问题称为预测。不同的两个问题自然有不同的解决方法，对于预测问题，通常采用回归分析的方法，比如之前线性回归对于输入样本x，模型的输出为y=hθ(x)=θTx，这里y的取值是连续性的。

那么回归分析一般是用来做预测的，可不可以用来做分类呢？试想一下，我们用线性回归来解决二分类问题，如果其输出y的取值拿一个阈值τ卡一下，对于输出y<τ的样本分为一类，对于输出y≥τ的样本分为另一类，这不就好了么？问题是对于线性回归的输出的取值范围是没有大小边界的，那么这个阈值τ怎么取就没法弄了。

与线性回归不同，逻辑回归输出的取值范围是0到1之间，这样的话，选一个阈值τ似乎比较可行了，为了说明怎么选，先看看逻辑函数（也叫sigmod函数）长啥样吧~逻辑函数的定义是这样的g(z)=11+e−z，z∈R1 ，g(z)∈(0,1)。它的图形长这样：

现在可以看出我们选的阈值应当是0.5，因为从图形上看，函数值取0.5时对应的自变量取值为0，而整个曲线是关于(0,0.5)中心对称的，这意味这选这个点对两类样本而言是比较公平的（可以这么理解吧~）。也就是说，逻辑函数可以将输入分为两类，第一类z>0，g(z)>0.5，而第二类z<0，g(z)<0.5。

一般情况下，我们的输入x是多维的啊，而逻辑函数的输入是个标量，所以用逻辑函数对我们的多维样本分类首先要对样本进行一个变换z=θTx（注意对样本加入常数项截距，即z=θ1(x1=1)+θ2x2+...+θn−1xn−1+θnxn，对原来n-1为输入增加取值为1的一维，只是为了方便写成向量形式），变换后的逻辑函数可以写出：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

那么现在要对样本分成两类了：θTx>0,hθ(x)>0.5的一类和θTx<0,hθ(x)<0.5的一类，而逻辑回归的任务就是根据已有的带类别的样本找到这个θ。（后面第三部分结合似然函数再来分析这个结果）。

二、逻辑回归求解

逻辑回归的基本模型已经有了hθ(x)=g(θTx)=11+e−θTx，那么怎么求解呢？好像没说解什么呢^_^，当然是解参数θ了，我们要找个θ使得我们的模型是最优的嘛，参数估计问题~所以，先写出对数似然函数吧！

ℓ(θ)=log∏i=1mp(y(i)|x(i);θ)，其中m是样本数目，i是样本编号。感觉怪怪的，突然冒出一个y(i)来，而且p(y(i)|xi,θ)也不知道啊。。。y(i)是啥呢，当然是样本类别了，我们不是要分类吗，每个样本本身当然有个类别了，这里是二分类就取0或者1吧。接着来看p(y(i)|xi,θ)，没法求吧，因为我们还没对y(i)|xi,θ建模啊，模型都没有，概率当然求不了。y(i)的取值只有0和1两个，所以它应当是一个伯努利分布，我们需要确定分别取这两个值的概率。回顾一下上面的hθ(x)，其取值范围为（0，1），这不正好嘛，y(i)取值的概率本身就是0和1之间的么！好了，干脆直接让p(y=1|x,θ)=hθ(x)，p(y=0|x,θ)=1−hθ(x)得了，这正好符合概率的定义的。那这样做有什么意义呢?回顾上面的内容，当hθ(x)小于0.5时，我们将样本分类为类别0，否则分类为类别1，这样的话取值范围为（0，1）的hθ(x)是不是可以衡量样本属于类别1的概率呢？结合逻辑回归函数的曲线看，z=θTx比0大的越多，hθ(x)取值越是偏离阈值0.5而离1越近，这意味这这个样本的分类越不模糊，很明确的属于其中一个类，相反hθ(x)取值越是偏离阈值0.5而离0越近，样本越是很明确的属于另一个类别。这样的话，样本归为类别1的概率就是hθ(x)，归类为类别0的概率就是1−hθ(x)。好了，y(i)|xi,θ的模型好了，即:

p(y(i)=1|x(i),θ)=hθ(x(i))，p(y(i)=0|x(i),θ)=1−hθ(x(i))

将他俩写出一个式子

p(y(i)|x(i),θ)=(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i)

现在，可以接着写似然函数了

ℓ(θ)=log∏i=1mp(y(i)|x(i);θ)=∑i=1mlog((hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i))=∑i=1m(y(i)log(hθ(x(i)))+(1−y(i))log((1−hθ(x(i)))))(1)(2)(3)

之前提到有人认为可以简单理解为逻辑回归是对线性回归的结果做了一个逻辑函数的转换，然后用来做二分类，现在有了似然函数就可以理解这种说法不准确了，因为两者求解的目标是不一样的，在逻辑回归的似然函数中，不存在线性回归中优化最小二乘的目标。

现在优化这个似然函数使其取最大值就可以了。

对θ的第l个分量θl求偏导(注意hθ(x(i))=g(θTx(i))且利用逻辑函数求导结果g(z)′=g(z)(1−g(z)))

∂ℓ(θ)∂θl=∂∑i=1m(y(i)log(hθ(x(i)))+(1−y(i))log((1−hθ(x(i)))))∂θl=∑i=1m(y(i)1hθ(x(i))+(1−y(i))11−hθ(x(i)))∂hθ(x(i))∂θl=∑i=1m(y(i)1hθ(x(i))−(1−y(i))11−hθ(x(i)))∂g(θTx(i))∂θl=∑i=1m(y(i)1hθ(x(i))−(1−y(i))11−hθ(x(i)))g(θTx(i))(1−g(θTx(i)))∂θTx(i)∂θl=∑i=1m(y(i)(1−g(θTx(i))−(1−y(i))g(θTx(i)))x(i)l=∑i=1m(y(i)−g(θTx(i)))x(i)l(4)(5)(6)(7)(8)(9)

要得到解析解，可以令偏导为0，解一下θl，不过解一下就会发现上面的式子不好解。所以为了求解参数θ，用最优化的方法吧~牛顿法，梯度法之类的。

另外一个问题，这个似然函数能不能求最大值呢？也就是说它万一是个凸函数，就可能有最小值而没最大值了，所以我们需要证明个个函数是个凹函数，这样利用优化方法找到一个局部极大值就是全局最大值了，好了，来证其Hessien矩阵半负定吧~

利用上面对θl的求导结果，Hessian矩阵第k行第l列的元素

Hkl=∂2ℓ(θ)∂k∂l=∂∑i=1m(y(i)−g(θTx(i)))x(i)l∂θk=∑i=1m−g(θTx(i))(1−g(θTx(i)))x(i)kx(i)l(10)(11)(12)

那么H=∑i=1m−g(θTx(i))(1−g(θTx(i)))x(i)x(i)T

对于任意非零向量p有

pTHp=∑i=1m−g(θTx(i))(1−g(θTx(i)))pTx(i)x(i)Tp=−∑i=1mg(θTx(i))(1−g(θTx(i)))(pTx(i))2(13)(14)

由于0<g(θTx(i))<1，所以pTHp≤0，所以似然函数的Hessien矩阵半负定，它是一个凹函数，这样，利用最优化方法求一个局部极大值就可以了。

三、逻辑回归干了干啥

上面推导了逻辑回归的求解的过程，乱乱的，简单总结一下逻辑回归干了个啥吧~

回顾似然函数ℓ(θ)=log∏i=1mp(y(i)|xi,θ)，我们的目标要最大化这个东西，也就是要最大化连乘符号里面的每一项p(y(i)|x(i),θ)=(hθ(x(i)))y(i)(1−hθ(x(i)))1−y(i)，它怎么才能大呢？考虑单个样本x如果它对应类别y=1，那么p(y|x,θ)=hθ(x)，所以hθ(x)要比较大才好，而hθ(x)=g(θTx)=11+e−θTx，所以θTx要大于0比较好（结合逻辑函数曲线看看）；相反如果y=0，最大化似然函数则要求θTx尽可能小于零。

所以最大化似然函数的解就是找到一个θ，是得对于类别为1的样本，尽可能满足θTx>0，而对于类别为0的样本，尽可能满足θTx<0。换句话说，我们找到的超平面θTx=0用来对样本分类。可以看出，现在从似然函数分析的结果和我们之前第一部分末尾提出的逻辑回归的目标是一致的。

四、简单实现

 View Code

参考资料：

[1]Andrew Ng机器学习视频、讲义：http://cs229.stanford.edu/

[2]《R语言实战》 /(美)科巴科弗(Kabacoff,R.I.)著；高涛，肖楠，陈钢译.人民邮电出版社，2013.1

[3]回归概念学习：http://blog.csdn.net/viewcode/article/details/8794401

0 0