【机器学习】先验概率、后验概率、贝叶斯公式、似然函数

来源：互联网发布：淘宝店铺运营助手在哪编辑：程序博客网时间：2024/06/06 20:48

一、先验概率、后验概率、贝叶斯公式、似然函数

在机器学习中，这些概念总会涉及到，但从来没有真正理解透彻他们之间的联系。下面打算好好从头捋一下这些概念，备忘。

1、先验概率

先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断，先验概率就是没有经过实验验证的概率，根据已知进行的主观臆测。

如抛一枚硬币，在抛之前，主观推断P（正面朝上） = 0.5。

2、后验概率

后验概率是指在得到“结果”的信息后重新修正的概率，如贝叶斯公式中的。是“执果寻因”问题中的”果”。先验概率与后验概率有不可分割的联系，后验概率的计算要以先验概率为基础。解释下来就是，在已知果（B）的前提下，得到重新修正的因（A）的概率P（A|B)，称为A的后验概率，也即条件概率。后验概率可以通过贝叶斯公式求解。

3、贝叶斯公式

贝叶斯公式，用来描述两个条件概率（后验概率）之间的关系，比如 P(A|B) 和 P(B|A)。按照乘法法则：

P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)

如上公式也可变形为：

P(A|B)=P(A)P(B|A)/P(B)      P(B)为标准化常量

贝叶斯法则表述如下：
一般公式
这里写图片描述
其中
A1,,,,,,An为完备事件组，即

举一个简单的例子：一口袋里有3只红球、2只白球，采用不放回方式摸取，求：⑴ 第一次摸到红球（记作A）的概率；⑵ 第二次摸到红球（记作B）的概率；⑶ 已知第二次摸到了红球，求第一次摸到的是红球的概率。

解：
⑴ P(A)=3/5，这就是A的先验概率；
⑵ P(B)=P(B|A)P(A)+P(B|A逆)P(A逆)=3/5 此称为准化常量，A与A逆称为完备事件组
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2，这就是A的后验概率。

4、似然函数

1）概念

在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。
似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。
概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而
似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。
举例如下：

对于“一枚正反对称的硬币上抛十次”这种事件，我们可以问硬币落地时十次都是正面向上的“概率”是多少；而对于“一枚硬币上抛十次，落地都是正面向上”这种事件，我们则可以问，这枚硬币正反面对称（也就是正反面概率均为0.5的概率）的“似然”程度是多少。

2）定义

给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X=x的概率：

L(θ|x)=P(X=x|θ).

公式解释如下：对参数θ的似然函数求值，（在数值上）等于观测结果X在给定参数θ下的条件概率，也即X的后验概率。一般似然函数的值越大表明在结果X=x下，此参数θ越合理。
因此形式上，似然函数也是一种条件概率函数，但我们关注的变量改变了，关注的是A取值为参数θ的似然值：

θ <---> P(B | A = θ)

因此说贝叶斯公式P(A|B)=P(B|A)P(A)/P(B)在形式上也可以表述为：

A的后验概率 = (A的似然度 * A的先验概率)/标准化常量

也就是说，后验概率与先验概率和似然度的乘积成正比。
注意到这里并不要求似然函数满足归一性：∑P(B | A = θ)= 1
一个似然函数乘以一个正的常数之后仍然是似然函数。对所有α > 0，都可以有似然函数：

L(θ|x)=αP(X=x|θ).

3）举例

举例如下：考虑投掷一枚硬币的实验。通常来说，已知投出的硬币正面朝上和反面朝上的概率各自是pH= 0.5，便可以知道投掷若干次后出现各种结果的可能性。比如说，投两次都是正面朝上的概率是0.25。用条件概率表示，就是：

P(HH | pH = 0.5) = 0.5^2 = 0.25

其中H表示正面朝上。

在统计学中，我们关心的是在已知一系列投掷的结果时，关于硬币投掷时正面朝上的可能性的信息。我们可以建立一个统计模型：假设硬币投出时会有pH的概率正面朝上，而有1 −pH的概率反面朝上。这时，条件概率可以改写成似然函数：

L(pH = 0.5 | HH) = P(HH | pH = 0.5) = 0.25

也就是说，对于取定的似然函数，在观测到两次投掷都是正面朝上时，pH= 0.5的似然性(可能性)是0.25（这并不表示当观测到两次正面朝上时pH= 0.5的概率是0.25）。
如果考虑pH= 0.6，那么似然函数的值也会改变。

L(pH = 0.6 | HH) = P(HH | pH = 0.6) = 0.36

注意到似然函数的值变大了。这说明，如果参数pH的取值变成0.6的话，结果观测到连续两次正面朝上的概率要比假设pH= 0.5时更大。也就是说，参数pH取成0.6 要比取成0.5 更有说服力，更为“合理”。总之，似然函数的重要性不是它的具体取值，而是当参数变化时函数到底变小还是变大。对同一个似然函数，如果存在一个参数值，使得它的函数值达到最大的话，那么这个值就是最为“合理”的参数值。
在这个例子中，似然函数实际上等于：

L(pH = θ | HH) = P(HH | pH = θ) =  θ^2

如果取pH= 1，那么似然函数达到最大值1。也就是说，当连续观测到两次正面朝上时，假设硬币投掷时正面朝上的概率为1是最合理的。
类似地，如果观测到的是三次投掷硬币，头两次正面朝上，第三次反面朝上，那么似然函数将会是：

L(pH = θ | HHT) = P(HHT | pH = θ) =  θ^2(1- θ)，其中T表示反面朝上，0 <= pH <= 1

这时候，似然函数的最大值将会在pH = 2/3的时候取到。也就是说，当观测到三次投掷中前两次正面朝上而后一次反面朝上时，估计硬币投掷时正面朝上的概率pH = 2/3是最合理的。

阅读全文

0 0

【机器学习】先验概率、后验概率、贝叶斯公式、 似然函数

一、先验概率、后验概率、贝叶斯公式、 似然函数