2 概率分布
来源:互联网 发布:统计 建立数据库 编辑:程序博客网 时间:2024/04/30 06:08
引言
发现对概率论的基本概念理解不是很深入,导致看后面的东西时常有些莫名其妙的疑惑,回头来看看概率论与统计
1. 累积分布函数(CDF – Cumulative distribution function 或直接就叫 distribution function)
CDF其定义为
正如统计学完全教程里说的,这个CDF函数是很有迷惑性的,有必要仔细理解它。我以前每次看这个表达式都是一闪而过,没有好好理解,而它的真正的意义应该是表示随机变量小于或等于其某一个取值x的概率。设一个例子,抛一枚均匀的硬币两次,设随机变量X表示出现正面的次数,那么
对于这个图,要想清楚清楚如下两个问题:
1)为什么函数始终是右连续的? 因为根据CDF的表达式中的小于等于号,当X=x时,P(X=x)的那部分应该被加到
2)为什么
因此F函数始终是非降的,右连续的,且
2. 概率密度函数(PDF – Probability density function)
对于离散随机变量的PDF为:
对于连续随机变量,若存在一个函数
则
表面看起来这个定义简单,但是要深入理解这些式子的含义,这个定义对后面整个机器学习的内容都是最基础最重要的。
其实后面所谓的 density estimation(EM algorithm和Sampling Methods)都是要估计出一个PDF来。
最简单的PDF就是比如翻硬币的例子,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}
稍微复杂点的PDF就是univariate Gaussian啦,其实也不复杂,高中就见过
3. 伯努利、二项分布、多项分布
伯努利分布就是对单次抛硬币的建模,X~Bernoulli(p)的PDF为
很多次抛硬币的建模就是二项分布了。注意二项分布有两个参数,n和p,要考虑抛的次数。
二项分布的取值X一般是出现正面的次数,其PDF为:
多项分布则更进一层,抛硬币时X只能有两种取值,当X有多种取值时,就应该用多项分布建模。
这时参数p变成了一个向量
2.1.1 The beta distribution
如果忘记伯努利分布和二项分布是怎么回事了,看这里。
书中引出贝塔分布的理由:P70提到,由于最大似然估计在观察数据很少时,会出现严重over-fitting(比如估计抛硬币正反面概率,只有3次抛硬币观察数据,且结果正好都是正面,则模型预测以后所有抛硬币都将是正面)。为了解决这个问题,可以考虑贝叶斯方法,即引入一个先验知识(先验分布p(μ))来控制参数μ,那么如何挑选这个分布呢?
根据:
已经知道似然函数的形式,如果选择的先验分布也与 μ 和 (1-μ) 两者的乘方成比例,那么后验分布的函数形式就会跟它的先验函数形式一样了。具体来说,选择prior的形式是
最终这里的先验和后验就都是贝塔分布了,其中先验的形式如下:
其中
在维基里面,有这么一个式子:
瞬间觉得世界清晰了,因为
从式2.14看出,Beta分布就是一个μ的PDF(概率密度函数)(这个昨天(3@21)刚仔细看过哈),μ本身是二项分布的参数,而a,b由于2.14的归一化过程可以被视作μ的控制参数,因此贝塔分布的a和b就被称作hyperparameters。下面的图是Beta分布的几个例子,其中横轴是μ取值范围,纵轴是PDF取值,PDF的值可以大于1哦。
最后得到的postprior如下:
要把这个postprior归一化其实可以参照式2.13,式2.17中的m+a等同于2.13中那个a,而l+b就是2.13中那个b,所以:
最后,如果我们已经有观察数据D,要估计μ,即
可以发现这个式子比最大似然估计的结果m/(m+l)多了a和b,也就是先验知识的影响。
2.2 Multinomial Variables
Multinomial Variables说白了就是多种选择选其一。比如随机变量X有三种取值x1,x2,x3,那么用一个三维向量表示Multinomial 的取值就是{1,0,0},{0,1,0},{0,0,1}分别代表选中x1,x2,x3,即必须选中一个,同时只能选一个这样的意思。
如果用μk表示xk=1时的概率,那么对于随机变量x的取值的概率分布可以表示为:
其实这个式子的意思就是当K取值k的时候,只有xk是1,其他都是0,所以这个p(x|μ)的值就是μk的值而已,因为一个数的0次方是1,所以对于其他xi(i≠k)的那部分μi全部都乘以了一个1而已。搞了这么一个玄乎的式子,应该是为了数学表示全面点,事实上直接理解就是p(x|μ) = μk。
上面所讲的这些其实只是多项分布的一次事件(或一次观察),如果有N多次观察,那么就需要用多项分布来描述了。就像伯努利分布只是描述一次抛硬币,而二项分布是描述N次抛硬币的一样。
对于Multinomial 的极大似然估计其实可想而知,就是数数xk的个数然后取占整个集合的比例作为概率了。式(2.31)给了数学上的likelihood的式子,但是那个什么拉格朗日乘子λ我已经没啥概念了,只知道是用来求函数极值的,这里记着点以后到高数里去看。2012@4@4补充,大致看了一下拉格朗日乘数法,没有想象中的复杂,就是用来求一个条件极值,在这里。
Dirichlet分布可以看做是分布之上的分布。如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在,我们还不满足,我们想要做10000次试验,每次试验中我们都投掷骰子10000次。我们想知道,出现这样的情况使得我们认为,骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了)。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。
首先用上面这一段来点直观印象,然后列一些资料:
维基里面对于狄利克雷分布貌似介绍的挺复杂,不够基础。我找到了一个CMU的PPT:Dirichlet Distribution, Dirichlet Process and Dirichlet Process Mixture,找到一篇华盛顿大学的《Introduction to the Dirichlet Distribution and Related Processes》介绍。
发现CMU那个ppt里面讲到,Beta is the conjugate prior of Binomial,有一种原来如此的感觉。嗯,原来贝塔分布是二项分布的共轭先验分布,那么狄利克雷分布就是多项分布的共轭先验分布。所以要看狄利克雷分布,就要先了解多项分布,然后呢,想要了解狄利克雷之于多元的关系,就要先看贝塔分布和伯努利分布的关系。所以,二项分布、beta分布、以及共轭这三点是理解狄利克雷分布的关键基础知识,这个基础知识记录在这里(PRML2.1整小章介绍了这个)。
下面正式进入狄利克雷分布介绍,首先说一下这个多项分布的参数μ。在伯努利分布里,参数μ就是抛硬币取某一面的概率,因为伯努利分布的状态空间只有{0,1}。但是在多项分布里,因为状态空间有K个取值,因此μ变成了向量
上式中,
其中
对于参数
从这个形式可以看出,后验也是狄利克雷分布。类似于贝塔分布归一化后验的方法,我们把这个后验归一化一下,得到:
2.3 The Gaussian Distribution
1. preliminary (Matrix Algebra — Methods of Multivariate Analysis C H A P T E R 2)
加入一些其他内容,调整至http://www.xperseverance.net/blogs/2012/12/1579/
2.多元情况下的协方差
我觉得PRML上2.3中的多元高斯分布为啥让人觉得虎,就是因为相对于单元高斯分布,多元情况下的方差令人迷惑和费解,所以本节只记录《MMA》中第三章讲述的多元协方差矩阵。
bivariate case:现在假设只在二维情况下讨论问题,则每个随机变量表示为
同时相关系数:
对于两个变量的相关性的理解可以用下面一个例子来描述:
设有二维随机变量(x,y),x表示升高,y表示体重,则凭经验就可以想到,身高是和体重相关的,所以讲这个随机变量画成二维点图应该如下(点集中在两个象限,展现出很高的相关性):
而如果把x换成智力,y换成身高,那么就会变成下面这个样子(所有点四个象限都有,展现出无关性):
3. 多元高斯分布:
未完待续!
2.5 Nonparametric Methods
这章主要介绍两种无参方法:核方法和近邻法。
P122 开始介绍核密度估计时,从公式2.242到2.246都是为了推导未知概率密度p(x)的估计。
最后推导得到式2.246如下:
其中V是x附近区域R的体积,K则是落入x附近区域R中的数据点个数,由此导出了两种不同的密度估计方法:
(1)如果固定K而估计V的大小,那么就是kNN算法(k固定而根据选定最近的k个数据来评估R的体积)
(2)如果固定V而估计K的大小,那么就是核密度估计,用一个核函数表示一个固定的体积V,然后数数这个体积里面数据点K的个数
这就是对这两种无参数方法比较深入的理解,很好。
关于核密度估计,虽然还不是很清楚,但是可以知道其实它的道理跟P121的histogram approach是一样的,只不过核密度估计是高维的而已
- 2 概率分布
- 概率分布
- 概率分布
- 概率分布
- 概率分布
- 概率分布-beta分布
- 第2章 随机变量及概率分布
- 机器学习之概率分布2
- 概率分布-二项分布、多项分布
- 概率分布之共轭分布
- 概率分布-泊松分布
- 条件概率分布与边缘概率分布
- 概率空间与概率分布
- 概率分布(多项分布,Dirichlet分布)
- 标准概率分布
- 股票价格累积概率分布
- 概率分布的近似
- 概率论:常见概率分布
- View 5应用之四:本地模式管理离线桌面
- DBGridEh全部属性设置详解
- 监听来电情况(静音)
- android 系统回调onSizeChange, onMeasure, onLayout调用时机
- 物料属性设置--笔记
- 2 概率分布
- 使用AIDL挂断电话
- Oracle数据库技术实用详解学习笔记:Log Buffer
- C/C++ 字符编码的转换(ut8、gb2312)
- 黑马程序员——Java语言基础——关键字、表示符、常量、变量及数据的类型、运算符
- 短信发送状态监听
- poj 1001 (Exponentiation) 高精度乘法
- linux 消息队列
- HDU 4046 Panda (树状数组)