机器学习之贝叶斯分类器

来源:互联网 发布:雪梨开的淘宝店店名 编辑:程序博客网 时间:2024/06/07 16:13

数学理论根基:贝叶斯决策论(Bayesian Decision Theory)

 

贝叶斯学派与频率学派:

       贝叶斯学派:强调概率的主观性,不强调事件的客观随机性,认为只是观察者不知道事件的结果,知情者对事件不具有随机性。

              随机性的根源不在于事件,而在于观察者对该事件的知识状态。

              将样本视为固定的,把模型的参数视为关键。

 

       频率学派:强调频率的自然属性,

 

贝叶斯决策论:

       行动空间A:某项实际工作中可能采取的各种行动所构成的集合。

       决策δ():样本空间X到行动空间A的一个映射,决策函数可以利用它得到A中的一个行动。

       损失函数L(θ,a)=L(θ,δ(~X)):表示参数是θ时采取的行动a所引起的损失

       决策风险R(θ,δ):损失函数的期望,R(θ,δ)= EL(θ,δ(~X))

       先验分布:描述参数θ在已知样本~X中的分布

       平均分布风险ρ(δ):定义为决策风险R(θ,δ)在先验分布下的期望

              ρ(δ)=EζR(θ,δ)

       贝叶斯决策δ*满足:ρ(δ*)=inf ρ(δ)

 

贝叶斯决策是在某个先验分布下使得平均风险最小的决策。

 

 

参数估计:

       极大似然估计和极大后验概率估计

极大似然估计(ML估计):

似然函数:输出~X=(x1,…,xn)^T在模型参数为θ下的概率P(~X|θ)=i=1NP(x i |θ)

              希望找到^ θ=arg max p(~X|θ)

 

 

       极大后验概率估计(MAP):

              更贴合贝叶斯学派思想的做法,

              后验概率,参数θ在训练集~X下所谓的真实的出现概率

              核心思想:将待估参数θ看成一个随机变量,从而引入参数θ的先验分布。

 

 

朴素贝叶斯:

       朴素:独立性假设

       贝叶斯:后验概率最大化

 

朴素贝叶斯的三种模型:

1、 离散型朴素贝叶斯:所有维度的特征都是离散型随机变量

2、 连续型朴素贝叶斯:所有维度的特征都是连续型随机变量

3、 混合型朴素贝叶斯:各个维度的特征有离散型也有连续型

 

朴素贝叶斯的模型参数即是类别的选择空间

朴素贝叶斯总的参数空间本应包括模型参数的先验概率,样本空间在模型参数下的条件概率和样本空间的概率

 

 

离散型朴素贝叶斯:

       使用极大似然估计导出模型的具体参数(先验概率,条件概率),使用极大后验概率估计作为模型的决策(输出使得数据后验概率最大化的类别)

 

 

 

半朴素贝叶斯和贝叶斯网:

 

半朴素贝叶斯(Semi-Naïve Bayes):

基本想法:

       提出条件独立性假设的原因正是联合概率难以求解,所以在弱化假设的时候同样应该避免引入过多的联合概率

常见的算法:

       ODE算法(One-DependentEstimator,独依赖估计):

              算法中各个维度的特征至多依赖一个其他维度的特征

 

              SPODE算法(Super-Parent ODE,超父级独依赖估计):

                     所有维度的特征都独依赖于同一维度的特征

              AODE算法(Averaged One-Dependent Estimator,集成独依赖估计):

                     以所有维度的特征作为超父训练n个SPODE模型,然后线性组合出最终模型。

 

 

贝叶斯网:

       贝叶斯网又称信念网,

网络的节点就是单一样本的各个维度上的随机变量

       连接节点的边就是节点之间的依赖关系