机器学习笔记之基础数学（二）

来源：互联网发布：身份证拍照扫描软件编辑：程序博客网时间：2024/06/06 05:12

贝叶斯公式

P(Bi|A)=P(B|Ai)P(Ai)∑ni=1P(B|Ai)P(Ai)

在贝叶斯法则中，每个名词都有约定俗成的名称：
Pr(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。
Pr(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称作A的后验概率。
Pr(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称作B的后验概率。(也称为似然函数)
Pr(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）。

思考

假设现在给定某些样本D,在这些样本中计算某结论A1,A2,⋯,An出现的概率P(Ai|D),我们想最大化这个概率的话就得到如下的式子：

m a x P (A i | D) = m a x P ( D | A i ) P ( A i ) P ( D ) = m a x P (D | A i) P (A i) = m a x P (D | A i)

这里如果样本D给定的话那么

P(D)是定值，然后我们假设

P(Ai)近似相等就得到了上述的结果。这意味着什么呢？意味着我们想要最大化后验概率

P(Ai|D)则只需要最大化似然函数P(D|A_i)。于是这就和最大似然估计联系起来了。

最大似然估计

设总体样本分布为f(x,θ),x1,x2,⋯,xn为该总体样本采样得到的样本，因为x1,x2,⋯,xn独立同分布，于是它们的连个概率密度函数为：

L (x 1, x 2, \dots, x n; θ 1, θ 2, \dots, θ n) = \prod i = 1 n f (x i; θ 1, θ 2, \dots, θ n)

这里，

θ被看作是固定的但是未知的参数，我们反过来想，因为样本年已经存在了，于是可以将

x1,x2,⋯,xn看作是固定的且已知的。于是

L(x,θ)就是关于

θ的函数，也就是似然函数。

最大似然函数的求解

通常我们对似然函数取对数，得到对数似然，再经行求解.
对上式子取对数：

l o g L (θ 1, θ 2, \dots, θ n) = \sum i = 1 n l o g f (x i; θ 1, θ 2, \dots, θ n)

然后对θ求偏导并令导数等于0解出θ。

阅读全文

0 0