machine learning2

来源:互联网 发布:淘宝一元拍网址 编辑:程序博客网 时间:2024/05/01 04:25

牛顿方法

做似然函数最大(小)化: 一般过程都是,求出一个似然函数,求导使导数等于零,然后导数为零处就是极值,使导数等于零的这一步就可以用牛顿方法来做,

θ:=θl(θ)l′′(θ)
由于θ是矢量,引入hessian矩阵H
θ:=θH1θl(θ)
Hij=2l(θ)θiθj
牛顿方法就是这样一个参数更新过程,取正切,即导数的数学意义,延长切线与水平轴相交于一点,这点就是新参数取值,直到为零。
牛顿方法是二次收敛,收敛速度在数据集不大的情况下远大于前面求导数等于零的速度,其主要计算量在于hessian矩阵求逆这一步。有一定的应用。

指数分布簇

大一统的时候到了,有没有人对此倍感兴奋!!!
首先指数分布簇的形式,

p(y;η)=b(y)exp(ηTT(y)a(η))

η:natural parameter(or canonical parameter);
T(y):sufficient statistic
a(η):log partition function
选定不同的T,a,b可以得到由参数控制的特定分布,比如伯努利分布
p(y;ϕ)=exp((log(ϕ1ϕ)y+log(1ϕ))
和高斯分布
p(y;u)=1(2π)exp(12y2)exp(μy12μ2)
,推导过程很简单,就跟解多元一次方程似的。需要指出的是多项式分布,泊松分布(常用于对计数情况的建模),gamma和指数分布(连续变量的,非负随机变量,比如预计车到达时间),beta分布以及dirichlet分布(对小数建模,尤其是基于概率的分布),wishart分布(协方差矩阵分布)都属于这个指数分布簇!
构建Generalized Linear Models
三个假设:1)符合指数分布簇;2)由给定的x预测T(y),T(y)一般情况下等于y,通过学习假设来预测h(x)输出;2)自然参数和输入变量线性相关ηi=θTix
回顾最小二乘,逻辑回归,都满足这个模型。

softmax regression

分类问题如果不是二分类而是多分类呢?这需要使用多项式分布,假设有k类,则令k个参数为\phi,去除相关性,只考虑其中k-1个参数(因为要满足概率之和等于1,\phi值等于y取k时的概率值)定义指示函数(1{true}=1,1{false}=0),并使

(T(y))i=1{y=1}
,二项式分布化为指数簇得:
p(y;ϕ)=i=1k1ϕ(T(y))iiϕ1k1i=1(T(y))ik

η=log(ϕiϕk),a(η)=log(ϕk),b(y)=1,ϕi=eηikj=1eηj=p(y=i|x;θ)假设
hθ(x)=[θi],
似然函数l(θ)=mi=1logp(y(i)|x(i);θ)

1 0
原创粉丝点击