机器学习——最大熵原理

来源:互联网 发布:coreldraw 软件logo 编辑:程序博客网 时间:2024/05/21 12:21

  首先介绍什么是熵。
  在信息论中,是接收的每条消息中包含的信息的平均量。熵是在1948年由克劳德·艾尔伍德·香农将热力学的熵引入到信息论的,因此它又被称为香农熵。
不确定性函数f满足两个条件是:
(1)概率P的单调递降函数;
(2)两个独立符号所产生的不确定性应等于各自不确定性之和(可加性),即
       f(P1,P2)=f(P1)+f(P2)。
同时满足这两个条件的函数f是对数函数,即
               这里写图片描述
  在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值:U1…Ui…Un,对应概率为:P1…Pi…Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵,即,
        这里写图片描述
  式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。
  假设我们的分类任务或者预测任务的类别为y,而我们能够依据的上下文信息记为x。我们希望在不同的给定的上下文x条件下,统计模型能够给出判为不同类别y的概率值。因此,我们希望能够建立一种区分性的条件概率模型。用来表示所有这种条件概率模型的集合,而我们期望得到的模型就是中的一种。所谓的条件最大熵模型,就是在一定约束下条件熵最大的模型。所谓的约束,也就是我们已知的信息,可以认为我们希望模型在这些信息上能和训练数据匹配。而熵最大,则表明除约束外,我们不再做未知的假设。在条件最大熵模型中,约束是通过特征的形式来体现的。

参考:
1. A Mathematical Theory of Communication
2. http://blog.csdn.net/nkcxr/article/details/9264173
3. http://zh.wikipedia.org/wiki/%E7%86%B5_(%E4%BF%A1%E6%81%AF%E8%AE%BA)
4.http://baike.baidu.com/linkurl=WcrDxiHmKMW8ey6FAz4ITICeci_EhI14YsxLTlNEjRyY1v_VPv6Z2h7azDV_YrlA4uUzBued378Ehk4UsQ8Hq_

0 0