【斯坦福---机器学习】复习笔记之牛顿方法

来源:互联网 发布:网络代理合作协议 编辑:程序博客网 时间:2024/05/21 17:48

本讲大纲:

1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)

1.牛顿方法

假设有函数:这里写图片描述,我们希望找到满足这里写图片描述这里写图片描述值. 这里这里写图片描述是实数.
牛顿方法执行下面的更新:
这里写图片描述
下图为执行牛顿方法的过程:
这里写图片描述
简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.

这里写图片描述,我们可以用同样的算法去最大化这里写图片描述
这里写图片描述

牛顿方法的一般化:
如果这里写图片描述是一个向量,那么:
这里写图片描述
其中,这里写图片描述这里写图片描述这里写图片描述的偏导数;
H称为黑塞矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,并且这里写图片描述(==当年学的各种名词又开始在脑海里翻滚==)

牛顿方法的收敛速度比批处理梯度下降快很多,很少次的迭代就能够非常接近最小值了;但是当n很大时,每次迭代求黑塞矩阵和黑塞矩阵的逆代价是很大的.

2.指数族

指数族形式:
这里写图片描述
其中,这里写图片描述被称为自然参数(natural parameter)或者典范参数(canonical parameter);
T(y)是充分统计量(sufficient statistic)(对于我们考虑的分布来说,通常T(y)=y);这里写图片描述
是日志分配函数(log partition function),这里写图片描述是一个规范化常数,使得分布的和为1.
给定T,a,b,通过改变参数这里写图片描述得到不同的分布.

下面展示伯努利(Bernoulli)高斯分布(Gaussian distribution)都是指数分布族的特例:

伯努利分布可以写成:
这里写图片描述
因此,令这里写图片描述(有趣地发现其反函数为这里写图片描述这里写图片描述),并且,
这里写图片描述

高斯分布:
回忆我们对线性回归求导时,方差对我们最终结果并没有任何影响.为了使问题简化,令这里写图片描述于是有,
这里写图片描述
得:
这里写图片描述

指数分布族还包括很多其他的分布:
多项式分布(multinomial)
泊松分布(poisson):用于计数的建模
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模
β分布Dirichlet分布:对小数建模

3.GLMS

为了导出GLM,作三个假设:
(1)这里写图片描述
(2)给定x,我们的目标是预测T(y)的预期值. 在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足这里写图片描述(这个假设对logistic回归和线性回归都成立)
(3)自然参数和输入变量是线性相关的,也就是说这里写图片描述(如果自然参数是向量,则这里写图片描述

3.1普通的最小二乘法
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,并且假设服从高斯分布这里写图片描述,高斯分布写成指数族的形式,有这里写图片描述得到:
这里写图片描述

3.2 logistic回归
考虑logistic,我们感兴趣的是二元分类,也就是说这里写图片描述很容易想到指数分布族的伯努利分布,有这里写图片描述,同理得到:
这里写图片描述

正则响应函数(canonical response function):这里写图片描述
正则链接函数(canonical link function):这里写图片描述

3.3 softmax 回归
当分类问题的y取值不止两个时,我们需要采用多项式分布(multinomial distribution).

在推导多项式分布的GLM之前,先把多项式分布表达成指数族.

为了参数化多项式分布的k各可能结果,有人可能会用k个参数来说明每一种情况的可能性,但是这些参数是冗余的,并且并不是独立的(由于知道任何其中的k-1个,剩下的一个就可以求出,因为满足这里写图片描述). 因此我们用k-1个参数这里写图片描述对多项分布进行参数化,这里写图片描述.
定义这里写图片描述,如下,
这里写图片描述

介绍一个很有用的记号,这里写图片描述,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的关系为这里写图片描述.
并且有这里写图片描述,因此:
这里写图片描述

链接函数为,这里写图片描述,为了方便,定义这里写图片描述.

可得:
这里写图片描述
因此这里写图片描述,反代回去得到响应函数:
这里写图片描述

从η到这里写图片描述的映射叫做softmax函数.

根据假设3,这里写图片描述得到:
这里写图片描述

这个应用于分类问题(当这里写图片描述),叫做softmax回归(softmax regression).是logistic回归的推广.

这里写图片描述

与最小二乘法和logistic回归类似,
这里写图片描述

再通过梯度上升或者牛顿方法求出θ.

2 1
原创粉丝点击