欢迎使用CSDN-markdown编辑器

来源：互联网发布：物理实验模拟软件编辑：程序博客网时间：2024/06/05 06:34

第1章逻辑斯蒂回归

逻辑斯蒂回归模型

1.1.1 逻辑斯蒂分布

　　定义1.1 (逻辑斯蒂分布):设X是连续随机变量，X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数：

F (x) = P (X \leq x) = 1 1 + e - ( x - u ) / r (1.1)

f (x) = F' (x) = e - ( x - u ) / r r ( 1 + e - ( x - u ) / r ) 2 (1.2)

其中，u为未知参数，r>0为形状参数
　　逻辑斯蒂分布的密度函数和分布函数如图6.1所示。分布函数属于逻辑斯蒂函数，其图形是一条S形曲(sigmoid curve)。该曲线以点(u,12)为中心成对称，即满足

F (- x + u) - 1 2 = - F (x + u) + 1 2

曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数r的值越小，曲线在中心附近增长越快。
　　　　　　　　　这里写图片描述

1.1.2 二项逻辑斯蒂回归模型

　　二项逻辑斯蒂回归模型是一种分类模型，由条件概率分布P(X|Y)表示，形式为参数化的逻辑斯蒂分布。其中，随机变量X取值为实数，随机变量Y取值为1或0,。我们通过监督学习的方法来估计模型参数。
　　定义1.2 (逻辑斯蒂回归模型)二项逻辑斯蒂回归模型是如下的条件概率分布：

P (Y = 1 | X) = e w * x + b 1 + e w * x + b (1.3)

P (Y = 0 | X) = 1 1 + e w * x + b (1.4)

其中，x∈Rn是输入，Y∈{0,1}是输出，w∈Rn和b∈R是参数，w称为权重，b称为偏置，w∗x是w和x的内积。
　　对于给定输入x，计算P(Y=1|X)，P(Y=0|X)。比较两者大小，将实例x分到概率值大的那一类。
　　有时为了方便，将权重向量和输入向量加以扩充，即w=(w1,w2,w3,...,wn,b)T，x=(x1,x2,x3,...,xn,1)T。注意，这里x∈Rn+1,w∈Rn+1此时逻辑斯蒂回归模型扩展如下：

P (Y = 1 | X) = e w * x 1 + e w * x (1.5)

P (Y = 0 | X) = 1 1 + e w * x (1.6)

　　现在考察逻辑斯蒂回归模型的特点。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p，那么该事件的几率是p1−p，该事件的对数几率(log odds)或logit函数是：

l o g i t (p) = l o g p 1 - p

对于逻辑斯蒂回归而言，由式(1.5)和式(1.6)得：

l o g P ( Y = 1 | X ) 1 - P ( Y = 1 | X ) = w * x

也就是说，在逻辑斯蒂回归模型中，输出Y=1的对数几率是输入x的线性函数。

1.3 模型参数估计

　　逻辑斯蒂回归模型学习时，对于给定的训练集T={(x1,y1),(x2,y2),...,(xn,yn)}，其中，xi∈Rn，Y∈{0,1}，可以用极大似然估计来估计参数，从而得到回归模型。
　　设：P(Y=1|x)=π(x)，P(Y=0|x)=1−π(x)
则似然函数为：∏Ni=1[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为：

L (w) = \sum i = 1 N [y i l o g π (x i) + (1 - y i) l o g (1 - π (x i))]

= \sum i = 1 N [y i l o g π ( x i ) 1 - π ( x i ) + l o g (1 - π (x i))]

= \sum i = 1 N [y i (w x i) - l o g (1 + e w x i)]

对L(w)求极大值，得到w的估计值。
　　这样，问题就变成以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归学习中通常采用的方法是梯度下降及拟牛顿法。
　　1、求解方法一：梯度上升法
　　

0 0