机器学习----贝叶斯分类器（贝叶斯决策论和极大似然估计）

来源：互联网发布：大话西游服务端源码编辑：程序博客网时间：2024/05/22 10:42

贝叶斯决策论

贝叶斯决策论（Bayesian decision theory）是概率框架下实施决策的基本方法。在所有相关概率都已知的理想情况下，贝叶斯决策论考虑如何基于这些概率和误判断来选择最优的类别标记。
假设有N种可能的类别标记，即Y={c1,c2,...,cn}，λij是将一个真实标记为cj的样本误分类为ci所产生的损失。基于后验概率P(ci|x)可获得将样本x分类为ci所产生的期望损失（expected loss），即在样本x上的“条件风险”（conditional risk）

R (c i | x) = \sum j = 1 N λ i j P (c j | x)

我们的任务是寻找一个判定准则

h:X→Y以最小化总结风险

R (h) = E x [R (h (x) | x)]

显然，对每个样本x，若h能最小化条件风险

R(h(x)|x)，则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则(Bayes decision rule):
为最小化总体风险，只需在每个样本上选择哪个能使条件风险

R(c|x)最小化的类别标记，即：

h * = a r g m i n c \in Y R (c | x)

此时

h∗成为贝叶斯最优分类器（Bayes optimal classifier）,与之对应的总体风险

R(h∗)称为贝叶斯风险，

1−R(h∗)反映了分类器能达到的最好性能，即通过机器学习所能产生的模型精度的理论上限。

后验概率最大化的意义

若我们的问题为分类问题，则可以有：

λ i j = {01 i f i = j o t h e r w i s e

此时条件风险为

R (c | x) = 1 - P (c | x)

于是，最小化分类错误率的贝叶斯最优分类器为

h * (x) = a r g m a x c \in Y P (c | x)

所以我们可以看出后验概率最大化就是期望风险最小化。这里我们用了期望风险这个词，其实和上面的条件风险是一个东西。

生成方法解决之道

不然看出我们要解决后延概率P(c|x)，判别模型就是对P(c|x)直接建模。如前面的决策树、BP神经网络、支持向量机等，都可以归入判别方法。对于生成模型，我们考虑：

P (c | x) = P ( x , c ) P ( x ) = P ( c ) P ( x | c ) P ( x )

其中，P(c)是类“先验”（prior）概率；P(x|c)是样本x相对于类标记c的类条件概率(class-conditional probality)，或者成为“似然”（likelihood）;P(x)是用于归一化的“证据”（evidence）因子。对于给定样本，p(x)与类标记无关，因此估计p(c|x)的问题就转化为如何基于训练样本数据D来估计先验概率P(c)和似然P(x|c)。

极大似然估计

估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。事实上，概率模型的训练过程就是参数估计（parameter estimation）过程。
对于参数估计，统计学界有两种方案：

频率主义学派（Frequentist）认为参数虽然未知，但却是客观存在的固定值，因此可通过优化似然函数等准则来确定参考值；
贝叶斯学派（Bayesian）则认为参数是未观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

极大似然估计是频率主义学派的经典方法~其思想就是目前出现的分布是概率最大的分布。
令Dc表示训练D中第c类样本组成的集合，假设这些样本是独立同分布的，则参数θc对于数据集Dc的似然是：

P (D c | θ c) = \prod x \in D c P (x | θ c)

极大似然就是

P(Dc|θc)取最大值的时候的

θc作为估计值。（╮(╯▽╰)╭哎，人类也是没辙了啊，我们能怎么办，我们也很绝望啊）
上式连乘容易造成结果下溢，通常使用对数似然（log-likelihood）:

L L (θ c) = l o g P (D c | θ c) = \sum x \in D c l o g P (x | θ c)

此时，参数

θc的极大似然估计

θc^为：

θ c^= a r g m a x θ c L L (θ c)

参考：周志华《机器学习》

0 0