09-决策论

来源:互联网 发布:the zen of python 编辑:程序博客网 时间:2024/05/23 16:25

  • 引子
  • 最小化误分率
    • 决策区域
    • 决策边界
    • 误分率的表达
    • 图示
  • 最小化期望损失
    • 损失矩阵
  • 拒绝选项
  • 推断与决策
    • 生成模型
    • 判别模型
    • 判别函数
    • 后验概率的意义
      • 最小风险

引子

出现原因:概率论是如何提供一个一致的数学框架来量化,计算不确定性。决策论,与概率论结合,可以让在模式识别中遇到不确定的情况的时候,做出最优的决定。

决策论的主题:在给定合适的概率下,做出最优的选择。

假设输入向量记做 x ,目标向量记做 tCk 是输出的类别,则贝叶斯公式记做:

p(Ck|x)=p(x|Ck)p(Ck)p(x)

贝叶斯定理中的任何一个量都可以由联合分布 p(x,Ck) 通过边缘化,或根据某个合适的变量条件化得到。 p(Ck) 是类 Ck 的先验概率, p(Ck|x) 是对应的后验概率。

目标:选择更大的后验概率,可以最小化分错 x 的可能性。

最小化误分率

决策区域

决策区域(decision regions):输入根据决策规则将输出空间切成的区域Rk。每个类别对应一个决策区域,如 Rk 中所有点都被分为类 Ck

决策边界

决策区域间的边界,称为决策边界(decision boundaries)或决策面(decision surfaces)。

误分率的表达

以2类为例,错误发生在把属于 C1 的分到了 C2 中,反之亦然。则发生错误的概率可以表达为:

p(mistake)==p(xR1,C2)+p(xR2,C1)R1p(x,C2)dx+R2p(x,C1)dx

为了最小化 p(mistake) 对于 x 的分类结果应该让公式中被积函数尽可能的小。形式化表述:最小化错误分类的概率,可以通过把 x 分到使后验概率 p(Ck|x) 最大的分类中得到。

图示

  • 两个类别的联合概率分布 p(x,Ck)x 的关系,以及决策边界 x=x^xx^ 的值被分类为 C2 ,因此属于决策区域 R2,而 x<x^ 的值被分类为 C1 ,属于区域 R1错误出现在蓝色、绿色和红色区域
  • 当我们改变决策区域的位置 x=x^ 时,绿色区域和蓝色区域的总面积是一个常数,而红色区域的面积发生改变。 x=x^ 的最优选择是 p(x,C1) 的曲线与 p(x,C2) 的曲线相交,对应于 x=x0 ,因为此时红色区域消失
  • 最小化错误分类率的决策规则,将 x 分配到具有最大的后验概率 p(Ck|x) 的区域中。

对于更一般的 K 类的情形,最大化正确率会稍微简单一些,即最大化:

p(correct)==k=1Kp(xRk,Ck)k=1KRkp(x,Ck)dx

当区域 Rk 的选择使得每个 x 的分类得到的 p(x,Ck) 最大时,上式取到最大值。

使用乘法规则 p(x,Ck)=p(Ck|x)p(x) ,因子 p(x) 对于所有项都相同,可以得到每个 x 都应该被分到有最大后验概率 p(Ck|x) 的类别中。

最小化期望损失

最小化误分率有时候解决不了问题,因为不同子问题的误分率的重要程度不一样,因此要引入损失函数(loss function)或成本函数(cost function),可以形式化这样的问题。

损失函数是对所有可能的决策或动作所产生的损失采用一种统一的整体度量。

损失矩阵

假设新的值 x ,它的实际类别是 Ck ,但我们把它分到了 Cj 中(其中 j 可能等于也可能不等于 k ),这样做之后会产生某种程度的损失,记作 Lkj 也就是损失矩阵(loss matrix)的第 i,j 项。如下图

这个具体的损失矩阵表示对于正确的分类是不会产生损失的,对于误诊断为癌症时损失为1,误诊断为未患癌症时损失为1000。

最优解是最小化损失函数,损失函数依赖于未知的正确类别。给定输入向量 x ,对正确分类的不确定性由联合概率分布 p(x,Ck) 表示,所以用最小化平均损失来替代。

平均损失可以用下面公式表达:

E[L]=kjRjLkjp(x,Ck)dx

用乘法规则 p(x,Ck)=p(Ck|x)p(x) 来消除公共项 p(x) 。最后计算最小化损失期望的决策规则是:计算关于 x 能取得最小值的第 j 类:

kLkjp(Ck|x)

拒绝选项

为了避免在置信度低的区间做决策,要设置拒绝选项(reject option)

推断与决策

推断阶段(inference stage):使用训练数据学习 p(Ck|x) 的模型
决策阶段(decision stage):使用这些后验概率来对类别作最优的分类

决策问题三种方法

生成模型

首先,通过对每个类别 Ck ,独立的确定类别的条件密度 p(x|Ck) 来解决推断问题,还分别推断出类别的先验概率 p(Ck) ,然后使用贝叶斯定理:

p(Ck|x)=p(x|Ck)p(Ck)p(x)

来计算类别的后验概率 p(Ck|x)

得到后验概率后,使用决策论来确定每个新的输入 x 的类别。因为可以通过取样来合成输入空间的数据点,所以显式或隐式的对输入和输出进行建模的方法被称为生成模型(generative models)。

判别模型

首先,解决确定类别的后验密度 p(Ck|x) 的推断问题,然后,使用决策论来对新的输入 x 进行分类。这种直接对后验概率建模的方法被称为判别模型(discriminative models)。

判别函数

能直接把输入 x 映射到类别标签的判别函数(discriminant function) f(x)

后验概率的意义

最小风险

损失矩阵的元素有被修改的问题,只使用判别准则,那么损失矩阵的任何改变都需要重新训练数据,来解决分类问题

0 0
原创粉丝点击