BRUTE-FORCE贝叶斯概念学习

来源:互联网 发布:如何定制淘宝客app 编辑:程序博客网 时间:2024/06/02 06:13

回顾机器学习中一些概念及学习过程

C:目标函数类(理想目标函数空间)

c:目标概念(在C中所需的一个理想目标函数)

X:实例集合{<xi,c(xi)>},i=1,2,...,∞

H:假设空间(实际学习的目标函数所在的函数空间)

h:某一假设(在H中实际学习的的一个目标函数)

D:训练样例集合{<xi, c(xi)>},i=1,2,...,n,定义c(x)=1的训练样例为正例,c(x)=0的训练样例为反例


学习问题就是从特殊训练样例中归纳出一个一般函数的过程(从特殊到一般,归纳演绎逻辑方法中的归纳),即

定义ML:在假设空间H中找到一个h,使得误差函数 E=∑||c(xi)-h(xi)||^2最小,从而对于X中的所有x,满足h(x)=c(x)


回顾概率论中关于贝叶斯法则相关的概念

在概率论中,P(x|y)表示给定y时x的概率,特别地,若x不依赖y(即x,y是相互独立事件),则P(x|y)=P(x)

先验概率是指不依赖于任何特定条件的发生概率,即上面的P(x),也可以用全概率公式求出。

如果某事件依赖于另一事件发生下才可能发生,则称为条件概率,即上面的P(x|y);

后验概率是指发生了已知事件而追寻此事件某个依赖条件的概率,即上面的P(y|x);

后验概率计算公式,P(y|x)=P(xy)/P(x)=P(x|y)P(y)/P(x)


下面结合贝叶斯法则,给出学习算法

用P(h)来代表在没有训练数据前假设h的概率,称为h的先验概率,反映所拥有的关于h是一正确假设的机会背景知识。

由于任一假设不比其他假设可能性大(即所得到个有限个假设H={h1,h2,...,hn},因为不知道h的具体是否正确的特性信息,

所以每一候选假设h正确具有相同的概率),

P(h)=1/||H||

用P(D)代表将要观察的训练数据D的先验概率(在没有确定某一假设成立时D的概率),因为不知道是哪个假设下观测到的数据,所以用全概率公式                                                          

P(D)= ∑  P(D|hi)P(hi)=  ∑ 1*1/|H|   +  ∑  0*1/|H|=|VSH,D|/|H|

         hi∈H                    hi∈VSH,D        hi∈其他   

其中VSH,D是H中与D一致的假设子集。

以P(D|h)代表假设h成立的情况下观察到的数据D的概率(也可以认为D与h一致的概率,理解为给定假设h,在目标函数空间中满足ML的D所占的比例)。

由于P(D|h)是在已知假设h成立条件下(即已经h为目标概念c的正确描述)观察到的目标值D=<d1...dm>的概率,则

P(D|h)=1,如果对D中所有di,di=h(xi),

           =0,其他情况

后验概率为P(h|D),即给定数据D,确定假设空间H中的最佳假设h(理解为给定数据D,在目标函数空间中满足ML的h所占的比例),

反映在看到训练数据D后h成立的置信度。现在计算每个假设h的后验概率

P(h|D)=P(D|h)P(h)/P(D)

          =(1*1/|H|)/(|VSH,D|/|H|)

                =1/|VSH,D|, 当h与D一致时,  

          =0,其他情况

从上式可以看出|VSH,D|是H中与D一致的假设数量,越大,则反映数据D更加具有随意被观察的特性,更近于分布广泛的噪声,从而P(h|D)的置信度越小,说明此假设h不可靠。

于是就可以输出最高后验假设hMAP

hMAP=arg maxP(h|D)

                h∈H

原创粉丝点击