机器学习——最大熵原理

来源：互联网发布：coreldraw 软件logo 编辑：程序博客网时间：2024/05/21 12:21

　　首先介绍什么是熵。
　　在信息论中，熵是接收的每条消息中包含的信息的平均量。熵是在1948年由克劳德·艾尔伍德·香农将热力学的熵引入到信息论的，因此它又被称为香农熵。
不确定性函数f满足两个条件是：
（１）概率P的单调递降函数；
（２）两个独立符号所产生的不确定性应等于各自不确定性之和（可加性），即
　　　　　　　f（P1，P2）=f（P1）+f（P2）。
同时满足这两个条件的函数f是对数函数，即
　　　　　　　　　　　　　　　这里写图片描述
　　在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值：U1…Ui…Un，对应概率为：P1…Pi…Pn，且各种符号的出现彼此独立。这时，信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值（E），可称为信息熵，即，
　　　　　　　　这里写图片描述
　　式中对数一般取2为底，单位为比特。但是，也可以取其它对数底，采用其它相应的单位，它们间可用换底公式换算。
　　假设我们的分类任务或者预测任务的类别为y，而我们能够依据的上下文信息记为x。我们希望在不同的给定的上下文x条件下，统计模型能够给出判为不同类别y的概率值。因此，我们希望能够建立一种区分性的条件概率模型。用来表示所有这种条件概率模型的集合，而我们期望得到的模型就是中的一种。所谓的条件最大熵模型，就是在一定约束下条件熵最大的模型。所谓的约束，也就是我们已知的信息，可以认为我们希望模型在这些信息上能和训练数据匹配。而熵最大，则表明除约束外，我们不再做未知的假设。在条件最大熵模型中，约束是通过特征的形式来体现的。

参考：
1. A Mathematical Theory of Communication
2. http://blog.csdn.net/nkcxr/article/details/9264173
3. http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
4.http://baike.baidu.com/linkurl=WcrDxiHmKMW8ey6FAz4ITICeci_EhI14YsxLTlNEjRyY1v_VPv6Z2h7azDV_YrlA4uUzBued378Ehk4UsQ8Hq_

0 0