机器学习_logistic回归笔记

来源:互联网 发布:linux get_sb 编辑:程序博客网 时间:2024/06/11 07:06

 logistic回归笔记

hahawho@outlook.com

1.1 相关描述

        回归:用一条直线对数据点进行拟合的过程。

        回归分类方法:根据现有数据对分类边界建立回归公式以此进行分类,训练分类器就是寻找最优拟合参数的过程。

       最优化方法可采用梯度上升法、随机梯度上升、或梯度下降法等。其中梯度上升法可以用来求函数的最大值,梯度下降法可以用来求函数的最小值。

1.2 Logistic回归

        考虑具有个独立变量的向量,设条件慨率为根据观测量相对于某事件发生的概率。那么Logistic回归模型可以表示为:

这里称为Logistic函数。其中

那么在条件下不发生的概率为:

所以事件发生与不发生的概率之比为

这个比值称为事件的发生比,对该式取对数得到

        可见Logistic回归都是围绕一个Logistic函数来展开的。接下来就讲如何用极大似然估计求分类器的参数。

        假设有个观测样本,观测值分别为,设为给定条件下得到的概率,同样地,

的概率为,所以得到一个观测值的概率为。

因为各个观测样本之间相互独立,那么它们的联合分布为各边缘分布的乘积。得到似然函数为

        然后我们的目标是求出使这一似然函数的值最大的参数估计,最大似然估计就是求出参数,使得取得最大值,对函数取对数得到

        继续对这个分别求偏导,得到个方程,比如现在对参数求偏导,由于

所以得到

       这样的方程一共有<img width="40" height="20" src="file:///C:/Users/alan/AppData/Local/Temp/msohtmlclip1/01/clip_image024.jpg" <="" span="">real_src="http://img.blog.csdn.net/20140528204822781" title=Logistic回归 v:shapes="_x0000_i1058">个,所以现在的问题转化为解这个方程形成的方程组。可以用梯度上升算法迭代计算得到上述似然函数求最大值。

 

1.3 梯度上升法

        梯度上升法思想:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向搜索,利用梯度上升法迭代公式:

        一直执行迭代该公式,直到达到某个停止条件为止,比如迭代次数达到某个指定值或者算法达到某个可以允许的误差范围。

        例如:以下为对一组数据进行回归迭代1000次得到参数及对应的的拟合曲线。

w0= 14.42717705   w1= 0.99741095  w2= -2.00415724

1.4  LR分类器

        LR分类器:Logistic Regression Classifier,在分类情形下,利用梯度上升法得到的参数(LR分类器是一组权值),当测试样本的数据输入时,这组权值与测试数据按照线性加和得到

这里是每个样本的个特征。之后按照sigmoid函数的形式求出

        由于sigmoid函数的定义域为,值域为,因此该LR分类器适合对两类目标进行分类,比如医学中根据病人的一些症状来判断它是否患有某种病。

0 0
原创粉丝点击