熵（entropy）学习记录

来源：互联网发布：伊塞亚托马斯数据编辑：程序博客网时间：2024/06/01 08:13

阅读资料来自http://blog.csdn.net/rtygbwwwerr/article/details/50778098，本文是阅读理解记录

熵这个词一开始听到是完全蒙圈的状态，今天读这篇博文有了新的感受，一方面可能也是因为最近重新阅读学习了概率论这本书。

熵就是形容一个随机事件的不确定程度的量，其取值范围是0到1。很明显越接近1说明其越混乱。

那么什么又叫做一个事件的不确定程度？举例来说，假如一个事件发生的概率是百分之百，比如你或者交出一块钱或者交出你的命那你肯定交出一块钱这个概率是1，那么这个事件的熵就是0，因为这是一个确定事件。而假如一个事件发生和不发生的概率都是0.5，那么肯定就是最不确定的状态，那么他的熵就是1。

当然以上过程要经过一些数学运算就可以算出对应的结果。具体数学运算见阅读资料。

这个数学模型表达的思想就是刚才我说的内容，所以他的本质其实是表示一种思想，公式是一种实现。

当然望更复杂的来说，上面说的是取值只有两种情况，发生或不发生，比如弹硬币是正或者反两种可能。而假如是有多种可能的情况时，比如打开电脑是打游戏还是上qq还是看视频这有三种选择时，这种情况就是上面情况的拓展，利用资料中的公式进行计算，

——————————————————————————————————————————————————————————————————————————

相对熵就比较蛋疼了，因为我觉得这个函数就没有前面的完美，看博文说是形容两个随机变量差距的大小，假如x取某一值，会产生两种情况：

（1）p(x)>q(x)，那么差距越大logp(x)/q(x)的值越大，也就是熵越大。

（2）相反，那么熵会变成负的，最后求期望是互相影响的，即使是乘了比较小的概率。

——————————————————————————————————————————————————————————————

交叉熵

主要见其应用为代价函数，其公式见http://blog.csdn.net/u012162613/article/details/44239919

其公式的左边部分是DKL中将p和q换成y和a。DKL是描述p和q两者差异程度的函数表达式，y和a是期望输出和神经网络的输出。这样很容易解释通了。

而公式右边部分是1-y和1-a，可以理解为非y和非a的差异度。

阅读全文

0 0