欢迎使用CSDN-markdown编辑器

来源:互联网 发布:物理实验模拟软件 编辑:程序博客网 时间:2024/06/05 06:34

第1章 逻辑斯蒂回归

逻辑斯蒂回归模型

1.1.1 逻辑斯蒂分布

  定义1.1 (逻辑斯蒂分布):X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:

F(x)=P(Xx)=11+e(xu)/r       (1.1)

f(x)=F(x)=e(xu)/rr(1+e(xu)/r)2        (1.2)

其中,u为未知参数,r>0为形状参数
  逻辑斯蒂分布的密度函数和分布函数如图6.1所示。分布函数属于逻辑斯蒂函数,其图形是一条S形曲(sigmoid curve)。该曲线以点(u,12)为中心成对称,即满足

F(x+u)12=F(x+u)+12

曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数r的值越小,曲线在中心附近增长越快。
         这里写图片描述

1.1.2 二项逻辑斯蒂回归模型

  二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(X|Y)表示,形式为参数化的逻辑斯蒂分布。其中,随机变量X取值为实数,随机变量Y取值为1或0,。我们通过监督学习的方法来估计模型参数。
  定义1.2 (逻辑斯蒂回归模型)二项逻辑斯蒂回归模型是如下的条件概率分布:

P(Y=1|X)=ewx+b1+ewx+b         (1.3)

P(Y=0|X)=11+ewx+b         (1.4)

其中,xRn是输入,Y{0,1}是输出,wRnbR是参数,w称为权重,b称为偏置,wxwx的内积。
  对于给定输入x,计算P(Y=1|X)P(Y=0|X)。比较两者大小,将实例x分到概率值大的那一类。
  有时为了方便,将权重向量和输入向量加以扩充,即w=(w1,w2,w3,...,wn,b)Tx=(x1,x2,x3,...,xn,1)T。注意,这里xRn+1,wRn+1此时逻辑斯蒂回归模型扩展如下:

P(Y=1|X)=ewx1+ewx           (1.5)

P(Y=0|X)=11+ewx           (1.6)

  现在考察逻辑斯蒂回归模型的特点。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p,那么该事件的几率是p1p,该事件的对数几率(log odds)或logit函数是:

logit(p)=logp1p

对于逻辑斯蒂回归而言,由式(1.5)和式(1.6)得:

logP(Y=1|X)1P(Y=1|X)=wx

也就是说,在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。

1.3 模型参数估计

  逻辑斯蒂回归模型学习时,对于给定的训练集T={(x1,y1),(x2,y2),...,(xn,yn)},其中,xiRnY{0,1},可以用极大似然估计来估计参数,从而得到回归模型。
  设:P(Y=1|x)=π(x)P(Y=0|x)=1π(x)
则似然函数为:Ni=1[π(xi)]yi[1π(xi)]1yi
对数似然函数为:

L(w)=i=1N[yilogπ(xi)+(1yi)log(1π(xi))]

=i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]

=i=1N[yi(wxi)log(1+ewxi)]

L(w)求极大值,得到w的估计值。
  这样,问题就变成以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归学习中通常采用的方法是梯度下降及拟牛顿法。
  1、求解方法一:梯度上升法
  

0 0
原创粉丝点击