机器学习笔记之基础数学(二)

来源:互联网 发布:身份证拍照扫描软件 编辑:程序博客网 时间:2024/06/06 05:12

贝叶斯公式

P(Bi|A)=P(B|Ai)P(Ai)ni=1P(B|Ai)P(Ai)

在贝叶斯法则中,每个名词都有约定俗成的名称:
Pr(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。(也称为似然函数)
Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。

思考

假设现在给定某些样本D,在这些样本中计算某结论A1,A2,,An出现的概率P(Ai|D),我们想最大化这个概率的话就得到如下的式子:

maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)=maxP(D|Ai)P(Ai)=maxP(D|Ai)

这里如果样本D给定的话那么P(D)是定值,然后我们假设P(Ai)近似相等就得到了上述的结果。这意味着什么呢?意味着我们想要最大化后验概率P(Ai|D)则只需要最大化似然函数P(D|A_i)。于是这就和最大似然估计联系起来了。

最大似然估计

设总体样本分布为f(x,θ),x1,x2,,xn为该总体样本采样得到的样本,因为x1,x2,,xn独立同分布,于是它们的连个概率密度函数为:

L(x1,x2,,xn;θ1,θ2,,θn)=i=1nf(xi;θ1,θ2,,θn)

这里,θ被看作是固定的但是未知的参数,我们反过来想,因为样本年已经存在了,于是可以将x1,x2,,xn看作是固定的且已知的。于是L(x,θ)就是关于θ的函数,也就是似然函数。

最大似然函数的求解

通常我们对似然函数取对数,得到对数似然,再经行求解.
对上式子取对数:

logL(θ1,θ2,,θn)=i=1nlogf(xi;θ1,θ2,,θn)

然后对θ求偏导并令导数等于0解出θ

原创粉丝点击