广义线性模型.多项式分布.softmax_????????????

来源:互联网 发布:知乎网络加载错误 编辑:程序博客网 时间:2024/06/11 02:53

http://blog.csdn.net/v1_vivian/article/details/52055760

《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记,除了整理出课件中的主要知识点,另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文,希望大家共同讨论,共同进步。

网易公开课地址:http://open.163.com/special/opencourse/machinelearning.html

参考博文:http://blog.csdn.net/acdreamers/article/details/44663305

                http://blog.sina.com.cn/s/blog_8a951ceb0102wa6t.html


本篇博文涉及课程四:牛顿方法


主要内容有:

(1)牛顿法(Newton's Method) (上篇博文已做具体分析)

(2)指数分布族                              (上篇博文已做具体分析)

(3)广义线性模型(GLMS)  

(4)多项式分布                      



广义线性模型


上篇博文中,我们知道了指数分布族,它的定义式为:


这次我们要了解的广义线性模型,是基于指数分布族的,我们可以通过指数分布族引出广义线性模型(Generalized LinearModel,GLM)。这种模型是把自变量的线性预测函数当作因变量的估计值。

 

实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量y服从高斯分布,η与正太分布的参数μ的关系是相等,那么得到的是线性最小二乘回归,当随机变量y服从伯努利分布,η与参数φ的关系是logistic函数,我们得到logistic回归。

 

由此可以看出,η以不同的映射函数与其它概率分布函数中的参数发生联系,从而得到不同的模型,广义线性模型正式将指数分布族中的所有成员(每个成员正好有一个这样的联系)都作为线性模型的扩展,通过各种非线性的连接函数将线性函数映射到其它空间从而大大扩大了线性模型可解决的问题。



如何根据指数分布族来构建广义线性模型?

GLM以三个假设为前提:

(1)给定特征属性和参数后,的条件概率服从指数分布族,即

(2)给定一个x,预测T(y)的期望值为:

(3)之间是线性的,即


依据这三个假设,我们可以推导出logistic模型与最小二乘模型。

对于最小二乘模型,推导过程如下:


Logistic模型的推导过程如下:

                       






其中,将η与原始概率分布中的参数联系起来的函数称为正则响应函数(canonical response function),如即是正则响应函数。

正则响应函数的逆称为正则关联函数(canonical link function)。


所以,对于广义线性模型,需要决策的是选用什么样的分布,当选取高斯分布时,我们就得到最小二乘模型,当选取伯努利分布时,我们得到logistic模型,这里所说的模型是假设函数h的形式。

总结一下,广义线性模型通过假设一个概率分布,得到不同的模型,而之前所讨论的梯度下降,牛顿方法都是为了求取模型中的线性部分的参数θ。



Softmax


我们知道,对于伯努利分布,我们采用Logistic回归建模。那么我们应该如何处理多分类问题?(比如要进行邮件分类;预测病情属于哪一类等等)。对于这种多项式分布我们使用softmax回归建模。


多项式分布的目标值yε{1,2,3,...,k};(其中是类别种数)其概率分布为:

因为

所以我们可以只保留k-1个参数,得到:

为了将多项式分布能够写成指数分布族的形式,先引入T(y),它是一个k-1维的向量,如下所示:


                                     

引入指示函数I,使得


这样,T(y)向量中的某个元素就可以表示为:


根据上式,我们还可以得到:

联合分布的概率密度函数为:于是,多项分布转变为指数分布族的推导如下:



对照指数分布族形式,上式可得到:

因为有:




得到


将上式代入
得:


假设函数h如下:

根据假设函数h求得参数θ,最大似然函数如下:



对上式取对数,得到如下最大似然函数对数为:

                                                                      

然后,将





代入上式。

再通过牛顿法或梯度下降法求得参数θ,再假设函数h对新的样例进行预测,即可完成多分类任务。

原创粉丝点击