PRML_决策论&信息论

来源：互联网发布：层次聚类 python 编辑：程序博客网时间：2024/05/22 12:14

决策论

分类决策
在做决策的一个准则就是如何减少误分类损失：
如在而分类中，即把所属类别为c1的数据分到c2，把所属类别为c2的数据分到c1。
p(mistake)=∫R1p(x,c2)dx+∫R2p(x,c1)dx
用矩阵表示可以为：
E(L)=∑k∑j∫RjLkjp(x,ck)dx
把本来属于类别ck分类到cj。L为k行j列矩阵。

直接求后验概率p(ck|x) ,判别模型
直接求函数y(x)

回归决策

考虑模型
E(L)=∫∫L(t,y(x))p(x,t)dxdt
其中 L(t,y(x))=(t−y(x))2。在模型中，我们是为了找到合适的y(x)。因此对y(x)求导。
可得 ∫(y(x)−t)p(x,t)dt=0
y(x)p(x)=∫tp(x,t)dt，因此
最优的 y(x)=∫tp(x,t)p(x)dt=Et[t|x]
另一种方法可以构造 {y(x)−t}2={y(x)−E[t|x]+E[t|x]−t}2
同样的决策也有三：
先验概率：通过求得p(x,t)来求p(t|x)
后验概率：直接求p(t|x)
直接通过函数。

信息论

信息论，顾名思义就是谈信息。而本节对信息的定义在于：若某个数据已经确定的被分类，那么所含信息为0，尚未确定的数据分类信息则大于分类已经确定性比较大的数据信息。概括的说，包含信息内容越大，那么不确定就越强。
这就是所谓的熵，反应的是不确定性的大小。
定义：
若两个变量x,y相互独立，我们可以得出
h(x,y) = h(x)+h(y),
p(x,y) = p(x)p(y)
因此我们定义某一变量信息的公式：
h(x)=−log2p(x)
基数2是因为计算机都是0-1编码。
这就涉及到了信道传播方式和计算机的编码问题。

如果有一串变量输入，那么信息的平均值（期望）为：
H(x)=−∑xp(x)log2p(x)
而在实际应用中，我们则使用：
H(x)=−∑ip(xi)lnp(xi)
上述是离散变量的熵，那么连续变量的熵呢？
H(x)=−∫p(x)lnp(x)dx
在离散变量中，我们看到，当取平均分布时候，熵最大，而连续变量呢？
而我们期待最大化熵值的时候，利用拉格朗日乘子
限制条件如下：
∫∞−∞p(x)dx=1 ∫∞−∞xp(x)dx=μ ∫∞−∞(x−u)2p(x)dx=σ2
根据拉格朗日乘子：
−∫p(x)lnp(x)dx+λ1(∫∞−∞p(x)dx−1)+λ2(∫∞−∞xp(x)dx−μ)+λ3(∫∞−∞(x−u)2p(x)dx−σ2)
分别对 p(x)求导得：
p(x)=exp{−1+λ1+λ2x+λ3(x−μ)2}
在将 p(x)带入限制条件1,2,3.
得到x符合高斯分布：

p(x)=12πσ2exp{−12σ2(x−u)2}

相对熵或者互信息或者KL散度
实际x的分布为p(x)，假设近似估计的分布为q(x)
定义：
KL(p||q)=−∫p(x)lnp(x)dx−(−∫p(x)lnq(x)dx) =−∫p(x)lnq(x)p(x)dx
利用jensen不等式证明KL(p||q)大于等于0。
首先介绍了凸函数和jensen不等式。

接下来，当衡量两个变量的分布时，就涉及到了互信息问题：联合分布和两个分布之积的KL距离。若两个变量独立分布，没有关系，那么KL=0.
I(x,y)=KL(p(x,y)||p(x)p(y))=−∫p(x,y)lnp(x)p(y)p(x,y)dx
又因为
H(x|y)=−∫∫p(x,y)lnp(x|y)dxdy
可以间接得出
I(x,y)=−∫∫p(x,y)lnp(x)p(y)p(x|y)p(y)dx=−∫∫p(x,y)ln(p(x)−p(x|y))dx
将上面的式子拆开，即可得到
I(x,y)=H(x)−H(x|y)
二者之间的KL距离可以使用x的先验熵减去得知y的后验熵。

0 0