PRML Notes- Chapter2 Probability Distribution(2.1,2.2)

来源:互联网 发布:快手作品植入淘宝链接 编辑:程序博客网 时间:2024/06/08 07:23

第二章 概率分布

  • 第二章 概率分布
    • 一些概念
    • 主要分布

从第一章中我们了解了机器学习的一些概念、定义等,并知道了ML中最重要的三个部分概率论、信息论和决策论,并简单介绍了贝叶斯学派的思想。这一章中会更加详细的去探讨如何对一个事件或者一个观测序列不确定性的描述,也就是概率分布的内容。由于这一章节的内容很多,因此可能会分为几篇blog去记录。笔记中的一些记录均是本人当前认知的一个结果,因而不见得全面、到位。

1. 一些概念

我们经常会提到概率分布,但概率分布有什么用,为什么要去分析这个东西?在实际生活中,我们很容易收集一些数据x1,x2,...,xN ,这个数据被称为观测数据,这个数据可能是来自于某个类别也可能是来自于某个曲线的采集点,我们的目的是想利用这些数据对于新产生的数据进行分析和判断,那么我们就需要知道这些观测数据是不是具有某种共性,这种共性被称为随机变量x概率分布p(x)。在更定观测数据的情况下,对概率分布p(x)建模的过程,称为密度估计(density estimation)
密度估计的问题,因为产生观测数据的分布可以有无限中,仅从数据猜测某一种分布存在一定的不合理性。随机变量的概率分布是有少许几个参数控制的,因此也称作参数分布
似然函数,在以后的笔记中会经常提到这个东西,那么这东西到底是什么呢?下面我们来具体解释一下它是什么。
假定随机变量x的概率密度函数是

p(x)=f(x|θ)(1)

表示x发生的概率或可能性,那给定一个样本X1后,这个样本出现的可能性有多大其实与目的函数中的θ有关,频率学派认为θ是一个实值采用似然函数求解;而贝叶斯学派则认为θ也是一个服从于某个分布的参数,取不同的值,对应不同的样本分布。通常情况下,似然函数采用如下形式:
L(θ|x)=i=0Nf(xi|θ)(2)

现在来理解公式1和2,公式1表达的是在给定参数θ的情况下样本x出现的可能性;公式2表达的是在给定样本序列的情况下,哪个参数使得x出现的可能性最大,是一种近似描述序列分布的函数,因而称为似然函数
共轭性,先验分布和后验分布具有相同的函数形式的性质。

2.主要分布

  1. 伯努利分布(Bernoulli distribution)
    抛一次硬币,正面或者反面朝上的概率。
    Bern(x|μ)=μx(1u)1x(2.2)

    均值和方差为:
    E[x]=μ(2.3)

    var[x]=μ(1μ)(2.4)

    根据x的观测数据集D=x1,x2,...,xN,每次观测都是独立事件,则对应的似然函数形式为:
    p(D|θ)=n=1Np(xn|μ)=n=1Nμxn(1μ)(1xn)(2.5)

    μ的最大似然解为:
    μML=1NNn=1xn(2.7)

    最大似然估计会出现过拟合的问题。
  2. 二项分布(Binomial distribution)
    在一次试验中,抛了N次硬币,有m次是正面朝上的概率分布。
    Bin(m|N,μ)=(Nm)μm(1μ)Nm(2.9)

    方差和均值:
    E[m]=m=0NBin(m|N,μ)=Nμ(2.11)

    var[m]=m=0N(EE[m])2Bin(m|N,μ)=Nμ(1μ)(2.12)

    加和的均值等于均值的加和,加和的方差等于方差的加和。
  3. Beta分布
    beta分布可以作为二项分布中参数μ的先验分布,形式如下:
    Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1(2.13)

    Gamma函数形式如下:
    Γ(x)=0ux1eudu(1.141)

    Beta分布的均值和方差为:
    E[μ]=aa+b(2.15)

    var[μ]=ab(a+b)2(a+b+1)(2.16)

    后验分布=似然函数X先验分布
    则可以得到后验分布的函数形式,
    TBD
  4. 4.
阅读全文
0 0
原创粉丝点击