极大熵模型和逻辑回归的等价性
来源:互联网 发布:孙悟空与哪吒知乎 编辑:程序博客网 时间:2024/05/16 08:16
极大熵模型的形式化定义是这样的,
其中第一个约束条件展开来就是(6.11),表示对于特征函数的期望
接下来把这个约束优化问题转换成无约束拉格朗日问题,再求解对偶问题,
令偏导数=0,获取P(y|x)的形式为
Z为归一化因子。注意到此形式和多类别的逻辑回归等同。
以上来源为李航的《统计机器学习》,但是有一些问题他没有讲的很明白
在http://www.win-vector.com/dfiles/LogisticRegressionMaxEnt.pdf点击打开链接中,
它由logistic regression的形式(exp(wx)/Z)出发,对其求极大似然估计,即对其似然函数对w_y0,j求偏导,令偏导为0
证明logistic regression的最优解需要满足约束(对任意j=0,...,n-1; y0=0,...k-1)
其中xi是第i个train data的向量,xij表示xi的第j个维度
可以看到这个形式和极大熵的第1个约束很相似
对极大熵模型,如果定义这样一组特征,其中j表示取出x的第j个分量,y0表示仅对类别为y0取值,别的都取0
f_j,y0(x,y) = xj (当y==y0)
= 0 (当y!=y0)
j=0,...,n-1; y0=0,...k-1
它的约束条件就等于对应的logit regression,所以二者等价。
PS1:在2类别的逻辑回归中,因为形式简单,可以直接用梯度法把w算出来,但是在多类别中,Z的形式是一堆指数的和,求导会很复杂,梯度法就很难用
于是用IIS来求解,IIS的思想是利用exp,log等函数的凸性质,把指数的和,和的指数这种复杂的形式,简化成比如线性函数这种简单好求解的形式,找到梯度的近似下界
然后用这个近似下界替代掉梯度,沿着下界最大的方向进行优化。
PS2:李航的推导,貌似来自Berger的《A Maximum Entropy Approach to Natural Language Processing》中,
在这篇paper中,定义的fi(x,y)是某种x,y条件下的指示函数,也就是说,值域是0/1。
其实这是NLP问题特有的约束,fi(x,y)在别的问题中不受这个约束,取别的特征统计量
另外,x只是observasion的一个表示,不是特征,f(x,j) 才相当于我们在别的分类器里用的特征
比如在http://www.ryanmcd.com/courses/gslt2007/gslt2007.pdf点击打开链接的第10页,他给了个例子:
x is a document and y is a label
fj(x,y) = num of words in x with punctuation and y =“scientific”
在这里fj(x,y)相当于文本分类里常用的tf。类似的,也可以用tf*idf定义
- 极大熵模型和逻辑回归的等价性
- 逻辑斯蒂回归,最大熵模型及其等价性
- 最大熵与逻辑回归的等价性
- 逻辑回归模型和算法
- 回归模型-逻辑回归
- 统计学习-逻辑回归(LR)和最大熵模型
- 统计学习方法:逻辑斯蒂回归和最大熵模型
- 极大似然法推导线性回归和逻辑回归代价(cost)函数
- 逻辑回归模型介绍和程序实现
- 逻辑回归模型的评估方法
- 逻辑回归与其他模型的关系
- 线性回归和逻辑回归的区别
- 六、逻辑回归与最大熵模型
- 逻辑回归模型
- 逻辑回归模型
- 逻辑回归模型
- 复习:逻辑回归模型
- 逻辑回归 S函数 极大似然 这三者的理解 结合具体案例
- js中typeOf用法
- 理解Lua语言中的__index,__newindex,rawget和rawset
- Android根据用户设置决定是否在开机时启动应用程序
- 【好书推荐】-你的灯亮着吗?
- hdu 3664
- 极大熵模型和逻辑回归的等价性
- Linux进程与线程学习随笔
- c代码反汇编,观察堆栈工作原理
- libcurl部分总结
- Android输入输出机制之来龙去脉之前生后世
- 基于JTBC的装修公司网站
- uva 10916 Factstone Benchmark
- 【每天一个Linux命令】20. Linux中的拷贝命令cp
- 将二叉搜索树转换成双向链表