最大熵模型
来源:互联网 发布:js怎么获取毫秒数 编辑:程序博客网 时间:2024/06/10 06:29
1. 极大似然估计在机器学习中的应用
- 在有监督学习中要求的是标签下的条件概率,极大似然学习的是概率分布
P ,可把P 看作是条件概率,使用极大似然,得到概率模型- 应用模型:最大熵模型,逻辑回归
- 在无监督学习中,标签不知道,只能在推导中使用极大似然估计的过程
- 应用:EM算法(GMM模型)
2. 熵
熵是平均不确定性的独立,函数到值的映射(泛函)
1. 平均互信息量(衡量确定性):
3. 最大熵模型推导
- 最大熵原理:承认已知事物,对未知事物不做任何假设,没有偏见,最大熵存在且唯一(凸优化)
- 模型一般形式(在约束条件下求条件熵最大化)
minP∈C−H(P)=−H(Y|X)=∑x,yP(x)P(y|x)logP(y|x) s.t.Ep(fi)=Ep¯(fi) 其中∑yP(y|x)=1 Ep¯(fi)=∑x,yp(x,y)fi(x,y) ,fi 为特征,当x,y 满足特征条件,fi(x,y)=1 ,否则为0 - 写成拉格朗日形式:
L(P,w)=−H(P)+w0(1−∑yP(y|x))+∑i=1nwi(Ep¯(fi)−Ep(fi))=∑x,yP¯(x)P(y|x)logP(y|x)+w0(1−∑yP(y|x))+∑j=1nwi(∑x,yP¯(x,y)fi(x,y)−∑x,yP¯(x)P(y|x)fi(x,y)) - 原问题和对偶问题:
原问题:minP∈CmaxwL(P,w) 对偶问题:maxwminP∈CL(P,w) 求对偶函数:φ=minP∈CL(P,w)=L(Pw,w) - 对
P(y|x) 求偏导数,令其为0,得到条件概率分布Pw(y|x) ,之后求w ,得到最大熵模型P(y|x)=exp(∑i=1nwifi(x,y)+w0−1)=exp(∑wifi(x,y))exp(1−w0) 归一化:Pw(y|x)=1Zexp(∑wifi(x,y)) Z=∑yexp(∑wifi(x,y)) - 最大熵模型中的
φ(w) 等价于最大熵模型的极大似然估计,两者可以相互证明其有效性 - 最大熵模型的优缺点
优点:
(1)建模时,试验者只需集中精力选择特征,而不需要花费精力考虑如何使用这些特征。
(2)特征选择灵活,可选不同种类特征,容易更换,充分适应未知信息和拟合已知信息。
(3)与NB相比不需要条件独立假设,通过特征选择(加特征)解决平滑问题
缺点:
(1)只能记录特征是否出现,不能记录特征强度
(2)算法收敛较慢,计算费时,时空开销大
(3)数据稀疏问题严重
(4)与NB一样,用于语言模型时没有语序信息和词频信息(1) - 最大熵模型的应用
词性标注、短语识别、指代消解、语法分析、机器翻译、文本分类、问题回答、语言模型
0 0
- 最大熵模型:读书笔记
- 最大熵模型
- 最大熵模型:读书笔记
- 最大熵模型
- 最大熵模型
- 最大熵模型
- 最大熵模型:读书笔记
- 最大熵模型
- 最大熵模型
- 最大熵模型
- 最大熵模型
- 最大熵模型介绍
- 最大熵模型
- 最大熵模型
- 最大熵模型
- 最大熵模型
- 最大熵模型
- 6.2 最大熵模型
- 最大似然求损失函数
- 第五周:Raptor:计算矩形的面积。
- java quartz实现定时发送邮件
- 求和
- 利用java打印乘法口诀表
- 最大熵模型
- 第五周项目二(2)比较三个数,输出最大值
- 第五周项目1--输入半径计算圆的周长
- WEB开发中的页面跳转方法
- ATL的GUI程序设计(4)
- Android 6.0运行时权限处理
- 随机森林与Adaboost
- 第五周 项目1 圆的周长
- 第五周用raptor计算圆的周长